Data Science by R and Python

統計学を、広く、深く、わかりやすく。

2014-01-01から1年間の記事一覧

2014年の振り返り -統計とか、研究とか、統計でおみくじとか!-

今年も残すところあと1時間になりました。 2014年はなかなか楽しい1年でした。 というか、毎年楽しいんですけども。 そして、定番の2014年の振り返りを書きます。2014年1月に宣言した目標に対する結果は、こんな感じ。 ※統計で論文を1本書こうと思いました→…

アンサンブル学習の勉強をした話(雑記?)

アンサンブル学習?バギング?ブースティング? ここ2~3日ほど、アンサンブル学習って一体なんだ!?と思って、色々と本、論文を読みあさっておりました。たまに、データの分析で「バギング」とか「ブースティング」で解析しましたとか意味わからない言葉を…

僕が統計を勉強するのに使ってる本まとめ(14/12/06更新)

統計を勉強し始めて3年ぐらいになりましたが、その3年間で「あー、これ何度も見直してるな」的な本をまとめておこうと思い立ったのが午後4時ぐらいなのですが、せっかくの機会なので、書いてみようと思います。ただ、とにかく本を読むのが苦手な僕なので、レ…

pythonで一般化線形モデルと公式リファレンスの罠 - using statsmodels -

寒くなってきました。最近、pythonでデータの解析をすることにいそしんでおります。 Rでできることをpythonでやりたいなと思っていろいろ調べてみると、まぁなかなかできるようになっていなかったりするわけで、その辺を整備し始めたので、ここに書いていこ…

メモ@Python - sys.pathの問題「Extra/lib/python」という罠

夏休み以来、一度も投稿していませんでした。完全に、ブログ書くのも忘れて、研究にいそしんでおります...最近、Rからpythonに色々と移行しつつありまして、環境設定で、原因不明のエラーに苦しめられております。そろそろ、またいろんなlibraryを開拓し…

相関の概念をさらにもう一歩深めるために。-ケンドールのタウを考えてみる-

昨日のエントリーで相関係数の有意性を確かめるためにどうすればいいのかということを書きました。 相関係数の有意性を確かめる方法について -相関係数について1歩踏み込む- - Data Science by R and Python 相関係数の有意性を確かめる方法について -相関係…

相関係数の有意性を確かめる方法について -相関係数について1歩踏み込む-

相関係数とは? 相関係数については、8月のエントリーを参照してもらうと良いかと思います。 「相関係数」ってなんですか? -意味と利点と欠点をわかりやすく- - Data Science by R and Python 「相関係数」ってなんですか? -意味と利点と欠点をわかりやす…

PypeRでpythonからRを使う -- データ解析をpythonで!

PythonからRを使うための方法. pythonからRを使うためには、pythonにpypeRというパッケージ?をインストールする必要があります。こちらです:PypeR $pip install PypeRで導入して使ってみてください。 実際にPypeRを使ってみます。 PypeRを使ってみた結果…

pythonでggplotを使おう! -pythonによるデータ分析(2)-

ggplot2をpythonで使う。 Rを使っている人にとっては、ggplot2はおなじみな感じがしますが、pythonでもこれ使えるといいなということで、pythonで使える方法を探しておりましたら、"ggplot"はpythonでもあるんですね。 ggplot 0.6.5 : Python Package Index …

pythonでデータ分析(1)

R -> python さて、pythonでRと同程度以上のデータ解析をできるようになろうと決意して、はや1週間が経ちました。まだ、1週間かよ!という突っ込みはやめてください笑。ここ数日は、全力でpythonによるデータ分析入門を読み込んでいます。というか、写経して…

codeacademyでpythonを勉強してみたよという話

codeacademyとは? 今日はこれを紹介:Learn to code | Codecademy codeacademyはオンラインでプログラミング言語を学べるサービスです。昔、一度だけ使ったことがあったんですけど、そのときは、ありがたみがわかりませんでしたが、全力で勉強する気になる…

集中講義の感想 -3日間ブログ書けなかった言い訳など-

from: Multiple Imputation in Stata: Imputing 3日間の集中講義を受けてきました。 8/27~8/29の3日間朝9:00〜17:00の時間帯をぶっとうしで講義を受ける「集中講義」を受講していました。その疲れで、3日間ブログを書けませんでした...(←言い訳。今回の…

plotlyパッケージでグラフをシェアしよう! -Rによるグラフィックス-

Plotlyパッケージを紹介します。 PlotlyはRのグラフィックのライブラリで、グラフの作成や共有をインタラクティブに行えて、かつかなりハイレベルな図をブラウザーで表示できるという特徴を持っています。 実際、書いたものをアップロードして、URLでブログ…

正規表現の勉強をしたのでメモ(自分用).

//メタ文字 //[abc] :aかbかcのどれか一文字にマッチさせる //[]と一緒に使えるメタ文字 //[a-z]:a-zのうちのどれか //[^abc]:^(キャレット):これの中の文字以外の1文字 var s = '@tomoshige_n,@temoshige'; var rs = s.match(/t[^ao]moshige/); if(rs){ a…

ShinyをCSSで拡張しようぜ!(その2) - Rでつくるウェブアプリケーション -

ShinyのCSSでの拡張第2弾 今日は、昨日書いた記事の続きを書きます。昨日の記事では、wwwフォルダーの中にCSSファイルを入れて拡張しようということを行ったわけですけど、別の方法もあります。それが、紹介することです。HTMLをご存知の方は知っていると思…

ShinyをCSSで拡張しようぜ! - Rでつくるウェブアプリケーション -

Shiny 先日、記事で「Shiny」というパッケージを用いたウェブアプリケーションの作成方法についてお話ししました。今回は、そんなウェブアプリケーションをCSS(cascading style sheets)で拡張しようじゃないか!というお話です。こちらの記事により詳しく…

機械学習とは何か? - 自分なりに説明+具体例:サポートベクターマシン-

機械学習とは? 今日は、機械学習をテーマにしてブログを書いてみます。「機械学習」と言えば、Googleなわけですけど、最近Googleがワールドカップの勝敗予想を機械学習で行って「すげー!」っておそらく一部界隈では盛り上がりました。最近では一般にも「機…

時間ができたので一般化線形モデル(ロジスティック回帰)のコードを書いてみた

ロジスティック回帰 ロジスティック回帰モデルといえば、一般化線形モデルの代表格で、統計を少しでも勉強している人は知っている・聞いたことのある手法だと思います。今回は、そのロジスティック回帰を実際にRでプログラムするということをやってみます。…

Shiny -Rでつくるウェブアプリケーション!-

shinyでウェブアプリケーションを作成する Rでは、"shiny"というライブラリを使うことで、ウェブアプリケーションを作成することができます。僕も、最近知って今日初めて少しだけ勉強したので、ここに書いてみます。まだ、少ししか見ていないのですが、結構…

僕が、統計学を始めた理由 -興味の中心にはいつも「ヒト」がいるみたいです-

今日は雑記 今日まで何日か、Rの使い方を書いてきたので、今日は「僕が、どうして統計学」に飛び込んだかという話を書いてみようと思います。昨日から「Sunny Brain, Rainy Brain」という本を読んでいる影響です。ちなみにこの本には「ポジティブ」と「ネガ…

ヒートマップで行列を可視化する! -ggplot2を用いたmicroarray発現量の可視化をしよう!-

今日のテーマは「ヒートマップ」 ヒートマップというのは、行列を可視化する時などに便利な手法です。有名なのは「遺伝子発現」というのを可視化する場合です。この他、店舗の一人の人が買った商品を可視化するのに使ってみてもおもしろいかもしれません。同…

オープンデータを解析する- ggplot2を用いたボロノイ分割で厚木市のコンビニ出店を見てみよう!-

オープンデータ 今日もオープンデータを可視化して、何かの役に立ててみようということをやってみたいと思います。昔、同級生が卒業研究で画像認識をやっていて、そのときに「ボロノイ分割」というものがありました。聞いているとですね、いろんな分野に応用…

線形モデルを簡単にわかりやすく! -データに直線を引いて、傾向を捉えるときの注意点-

線形モデルとは 今日のテーマは「線形モデル」です。多くの人が聞き慣れている「線形モデル」という言葉ですが、これについて今回はお話ししたいと思います。線形モデルは、他に「回帰モデル」という人もいますし、「線形回帰モデル」ということもあります。…

大学のゼミどんなことしてるんですか? -数理科学・統計の中身-

雑記 久々に、実家に帰ってきまして。。。和歌山の海の近くでのんびりしながら、ブログを書いております。今日は、完全に雑記です。さて、大学で、研究室に所属すると「ゼミ」というものがあります。ゼミは、研究室毎にやり方が違います。基本は「研究の発表…

(番外編1)Rを使ったグラフィック -ggplot2でウォーターフォール図-

Rのグラフィックでウォーターフォールチャートを作成しよう! さて、今回はRでまさかのウォーターフォールチャートを作成するという完全に趣味の領域の話をします。 ウォーターフォールチャートとは まずは、Wikipediaから引用しましょう。 滝グラフ(たきグ…

確率の謎・ベイズの定理 - 2名のうち1名が女の子とわかったとき、2名とも女の子の確率? -

ベイズの定理?? 今日は、ベイズの定理について。ベイズの定理を聞いたことのない人もいるかもしれませんので、まずはベイズの定理から説明します。ベイズの定理は数学的には次のように書き表されます。 数式をみても、さっぱり意味の分からない人もいらっ…

(第2回)Rを使ったグラフィック -ggplot2-

Rのグラフィック第2弾 さて、前回の記事(第1回)Rを使ったグラフィック -ggplot2- - Data Science by R and Pythonから、時間が少しかかりましたが、ggplot2を持ちいたグラフィックの第2弾を紹介します。 描画要素の配置の指定を行う。 ここで、指定するの…

【予告】データフェストを開催します!(仮)

予告 9月27日(土), 28日(日)の2日間でデータフェストというイベントを開催する予定です。内容としては、2日間で「何かのデータ」を解析して、結果を導くというものです。対象は、データ解析を学び始めた、学んでいる大学生・院生とする予定です。 追記:…

データの見える化 - なんで見える化するのか(統計の基本) -

前置き 前回、長いブログを書いて、ちょっとお疲れモードなので、今日は短めに。夏休みブログ7日目。今日のテーマは「統計解析」の基本である「データの見える化」をする理由についてお話しします。 「見える化」とは 大学3年生(今からもう2年前)に始めて…

「相関係数」ってなんですか? -意味と利点と欠点をわかりやすく-

「相関」って何. 統計学を学んだことがあれば、誰もが一度は聞いたことがある「相関」という言葉。最近では、高校でも扱われる概念になったようですが、「相関」っていったい何でしょうか?教科書(という名のWikipedia)にはこういう風に書かれています。 …