Data Science by R and Python

統計学を、広く、深く、わかりやすく。

pythonでstepwise regression用の関数を作っておく

はじめに ほんと、久々の更新になってしまいました。。。 いまだに月間で1000PVほど見られているようでとてもありがたく思いますm(_ _)m最近も変わらず因果推論の研究を中心に行っておりますが、それ関連の内容はまた機会をみてblogで書いていければと思って…

因果効果の推定!Rで実践 - 傾向スコア,マッチング,IPW推定量 -

はじめに 先日,岩波データサイエンスvol.3が発売されました.私も,「傾向スコアを用いたバント効果の推定−−ノーアウト1塁のバントは,得点確率を有意に高めるか!?」と題した記事を寄稿させていただきました.興味がある方は,是非読んでください&感想・コ…

推定量の一致性(大数の法則)の感覚的に理解をする

久々の更新です.今日,シミュレーションで久々に推定量の一致性(大数の法則)を可視化してみたので,せっかくなのでブログに載せておこうと思います.データを発生する確率変数の分散をとします.このとき,確率変数から発生させられたサイズの標本から,…

【2日目】統計を学ぶ人のための測度論(1週間限定独りリレーブログ)

こんにちは,2日目の記事はいろいろ悩みましたが,「統計のための測度論」ということで書いてみようかと.最初に断っておきますが,「理論的厳密さ」よりも,「直感的理解」を優先して書きますので,その辺り気持ち悪い人は,Wikipedia/数学書(最後の参考…

【1日目】1週間限定独りリレーブログ

今年も,もうすぐ終わりですね.そして,更新しなきゃ!と思って放置していたこのブログも遂に放置して7ヶ月が経とうとしています.真面目に更新しろよ,自分.ということで,年末こそは更新するぞを息巻いて,1日目の更新をします(※このブログも,現在月に…

パッケージを使わないで、一般化線形混合モデルのMCMCアルゴリズムを1から作る.

こんにちは. 金曜日の夜になり、激しめの睡魔に襲われております.先日のこちらの記事で公開したスライドの後半にあるシミュレーションで、地域差を考慮したPoisson - Normalモデルを構築しているのですが、そのコードを載せておきます。ベイズ推論とシミュ…

ベイズ推論とシミュレーション法の基本について

ベイズ推論とMCMC 今日セミナーで話をするスライドです. 基本的なベイズ推論と、シミュレーション法の枠組みを 自分なりにまとめたスライドになっています。ベイズ推論は便利ですが、なかなか背景の理解が難しいので、 ベイジアンとノンベイジアンな手法の…

Hidden Markov Model - by R

隠れマルコフモデルをつくってみる。 こんにちは、日曜日も終わりにさしかかっておりますが、今日は完全に息抜きをしたくて、HMMでも勉強して、Rで書いてみるかということで、作成してみました。潜在変数がスイッチになって、観測値を発生させる分布が変わる…

一般化線形混合モデル(GLMM) -Poisson/NormalをMCMCで書き直す

GLMM(Poisson - Normal)をMCMCに! つい、10時間ほど前に投稿したGLM(ポアソン回帰モデル)のmcmc版の作成に続けて、GLMMのポアソン/正規モデルもmcmcで書いてみました。(10時間前の記事がこちら)ポアソン回帰モデルをMCMCに書き直してみる - Data Scie…

ポアソン回帰モデルをMCMCに書き直してみる

MCMCでポアソン回帰モデル 一般化線形モデルの1つであるポアソン回帰モデルをMCMCで書いてみました。 ただし、大事な収束判定のところとか、その辺りについては全然入っていません。 簡単なmcmcのアルゴリズムを自分で書いてみたいという人の参考になればと…

Rでベータ関数を描いた

特に、何か面白いことをしたわけではないですが、 ベータ関数を描いたので、コード載せとく。 logf = function(x){ rr = 0 for(i in 1:x){ rr = rr + log(i) } return(rr) } #beta distibutionの点の値を求める関数 d_beta = function(theta,n=129,y=118){ r…

MCMC導入編 - Simulation Methodsの基本 -

こんにちは。 中間発表などで時間をとられたので、実に3ヶ月ぶりの更新となってしまいました。 でも、嬉しいことに、、、このブログ毎日300前後のアクセスを頂いていて、 書いている本人としてはとても嬉しいです。この記事のテーマはマルコフ連鎖モンテカル…

2014年の振り返り -統計とか、研究とか、統計でおみくじとか!-

今年も残すところあと1時間になりました。 2014年はなかなか楽しい1年でした。 というか、毎年楽しいんですけども。 そして、定番の2014年の振り返りを書きます。2014年1月に宣言した目標に対する結果は、こんな感じ。 ※統計で論文を1本書こうと思いました→…

アンサンブル学習の勉強をした話(雑記?)

アンサンブル学習?バギング?ブースティング? ここ2~3日ほど、アンサンブル学習って一体なんだ!?と思って、色々と本、論文を読みあさっておりました。たまに、データの分析で「バギング」とか「ブースティング」で解析しましたとか意味わからない言葉を…

僕が統計を勉強するのに使ってる本まとめ(14/12/06更新)

統計を勉強し始めて3年ぐらいになりましたが、その3年間で「あー、これ何度も見直してるな」的な本をまとめておこうと思い立ったのが午後4時ぐらいなのですが、せっかくの機会なので、書いてみようと思います。ただ、とにかく本を読むのが苦手な僕なので、レ…

pythonで一般化線形モデルと公式リファレンスの罠 - using statsmodels -

寒くなってきました。最近、pythonでデータの解析をすることにいそしんでおります。 Rでできることをpythonでやりたいなと思っていろいろ調べてみると、まぁなかなかできるようになっていなかったりするわけで、その辺を整備し始めたので、ここに書いていこ…

メモ@Python - sys.pathの問題「Extra/lib/python」という罠

夏休み以来、一度も投稿していませんでした。完全に、ブログ書くのも忘れて、研究にいそしんでおります...最近、Rからpythonに色々と移行しつつありまして、環境設定で、原因不明のエラーに苦しめられております。そろそろ、またいろんなlibraryを開拓し…

相関の概念をさらにもう一歩深めるために。-ケンドールのタウを考えてみる-

昨日のエントリーで相関係数の有意性を確かめるためにどうすればいいのかということを書きました。 相関係数の有意性を確かめる方法について -相関係数について1歩踏み込む- - Data Science by R and Python 相関係数の有意性を確かめる方法について -相関係…

相関係数の有意性を確かめる方法について -相関係数について1歩踏み込む-

相関係数とは? 相関係数については、8月のエントリーを参照してもらうと良いかと思います。 「相関係数」ってなんですか? -意味と利点と欠点をわかりやすく- - Data Science by R and Python 「相関係数」ってなんですか? -意味と利点と欠点をわかりやす…

PypeRでpythonからRを使う -- データ解析をpythonで!

PythonからRを使うための方法. pythonからRを使うためには、pythonにpypeRというパッケージ?をインストールする必要があります。こちらです:PypeR $pip install PypeRで導入して使ってみてください。 実際にPypeRを使ってみます。 PypeRを使ってみた結果…

pythonでggplotを使おう! -pythonによるデータ分析(2)-

ggplot2をpythonで使う。 Rを使っている人にとっては、ggplot2はおなじみな感じがしますが、pythonでもこれ使えるといいなということで、pythonで使える方法を探しておりましたら、"ggplot"はpythonでもあるんですね。 ggplot 0.6.5 : Python Package Index …

pythonでデータ分析(1)

R -> python さて、pythonでRと同程度以上のデータ解析をできるようになろうと決意して、はや1週間が経ちました。まだ、1週間かよ!という突っ込みはやめてください笑。ここ数日は、全力でpythonによるデータ分析入門を読み込んでいます。というか、写経して…

codeacademyでpythonを勉強してみたよという話

codeacademyとは? 今日はこれを紹介:Learn to code | Codecademy codeacademyはオンラインでプログラミング言語を学べるサービスです。昔、一度だけ使ったことがあったんですけど、そのときは、ありがたみがわかりませんでしたが、全力で勉強する気になる…

集中講義の感想 -3日間ブログ書けなかった言い訳など-

from: Multiple Imputation in Stata: Imputing 3日間の集中講義を受けてきました。 8/27~8/29の3日間朝9:00〜17:00の時間帯をぶっとうしで講義を受ける「集中講義」を受講していました。その疲れで、3日間ブログを書けませんでした...(←言い訳。今回の…

plotlyパッケージでグラフをシェアしよう! -Rによるグラフィックス-

Plotlyパッケージを紹介します。 PlotlyはRのグラフィックのライブラリで、グラフの作成や共有をインタラクティブに行えて、かつかなりハイレベルな図をブラウザーで表示できるという特徴を持っています。 実際、書いたものをアップロードして、URLでブログ…

正規表現の勉強をしたのでメモ(自分用).

//メタ文字 //[abc] :aかbかcのどれか一文字にマッチさせる //[]と一緒に使えるメタ文字 //[a-z]:a-zのうちのどれか //[^abc]:^(キャレット):これの中の文字以外の1文字 var s = '@tomoshige_n,@temoshige'; var rs = s.match(/t[^ao]moshige/); if(rs){ a…

ShinyをCSSで拡張しようぜ!(その2) - Rでつくるウェブアプリケーション -

ShinyのCSSでの拡張第2弾 今日は、昨日書いた記事の続きを書きます。昨日の記事では、wwwフォルダーの中にCSSファイルを入れて拡張しようということを行ったわけですけど、別の方法もあります。それが、紹介することです。HTMLをご存知の方は知っていると思…

ShinyをCSSで拡張しようぜ! - Rでつくるウェブアプリケーション -

Shiny 先日、記事で「Shiny」というパッケージを用いたウェブアプリケーションの作成方法についてお話ししました。今回は、そんなウェブアプリケーションをCSS(cascading style sheets)で拡張しようじゃないか!というお話です。こちらの記事により詳しく…

機械学習とは何か? - 自分なりに説明+具体例:サポートベクターマシン-

機械学習とは? 今日は、機械学習をテーマにしてブログを書いてみます。「機械学習」と言えば、Googleなわけですけど、最近Googleがワールドカップの勝敗予想を機械学習で行って「すげー!」っておそらく一部界隈では盛り上がりました。最近では一般にも「機…

時間ができたので一般化線形モデル(ロジスティック回帰)のコードを書いてみた

ロジスティック回帰 ロジスティック回帰モデルといえば、一般化線形モデルの代表格で、統計を少しでも勉強している人は知っている・聞いたことのある手法だと思います。今回は、そのロジスティック回帰を実際にRでプログラムするということをやってみます。…