Data Science by R and Python

統計学を、広く、深く、わかりやすく。

因果効果の推定!Rで実践 - 傾向スコア,マッチング,IPW推定量 -

はじめに 先日,岩波データサイエンスvol.3が発売されました.私も,「傾向スコアを用いたバント効果の推定−−ノーアウト1塁のバントは,得点確率を有意に高めるか!?」と題した記事を寄稿させていただきました.興味がある方は,是非読んでください&感想・コ…

推定量の一致性(大数の法則)の感覚的に理解をする

久々の更新です.今日,シミュレーションで久々に推定量の一致性(大数の法則)を可視化してみたので,せっかくなのでブログに載せておこうと思います.データを発生する確率変数の分散をとします.このとき,確率変数から発生させられたサイズの標本から,…

【2日目】統計を学ぶ人のための測度論(1週間限定独りリレーブログ)

こんにちは,2日目の記事はいろいろ悩みましたが,「統計のための測度論」ということで書いてみようかと.最初に断っておきますが,「理論的厳密さ」よりも,「直感的理解」を優先して書きますので,その辺り気持ち悪い人は,Wikipedia/数学書(最後の参考…

【1日目】1週間限定独りリレーブログ

今年も,もうすぐ終わりですね.そして,更新しなきゃ!と思って放置していたこのブログも遂に放置して7ヶ月が経とうとしています.真面目に更新しろよ,自分.ということで,年末こそは更新するぞを息巻いて,1日目の更新をします(※このブログも,現在月に…

パッケージを使わないで、一般化線形混合モデルのMCMCアルゴリズムを1から作る.

こんにちは. 金曜日の夜になり、激しめの睡魔に襲われております.先日のこちらの記事で公開したスライドの後半にあるシミュレーションで、地域差を考慮したPoisson - Normalモデルを構築しているのですが、そのコードを載せておきます。ベイズ推論とシミュ…

ベイズ推論とシミュレーション法の基本について

ベイズ推論とMCMC 今日セミナーで話をするスライドです. 基本的なベイズ推論と、シミュレーション法の枠組みを 自分なりにまとめたスライドになっています。ベイズ推論は便利ですが、なかなか背景の理解が難しいので、 ベイジアンとノンベイジアンな手法の…

Hidden Markov Model - by R

隠れマルコフモデルをつくってみる。 こんにちは、日曜日も終わりにさしかかっておりますが、今日は完全に息抜きをしたくて、HMMでも勉強して、Rで書いてみるかということで、作成してみました。潜在変数がスイッチになって、観測値を発生させる分布が変わる…

一般化線形混合モデル(GLMM) -Poisson/NormalをMCMCで書き直す

GLMM(Poisson - Normal)をMCMCに! つい、10時間ほど前に投稿したGLM(ポアソン回帰モデル)のmcmc版の作成に続けて、GLMMのポアソン/正規モデルもmcmcで書いてみました。(10時間前の記事がこちら)ポアソン回帰モデルをMCMCに書き直してみる - Data Scie…

ポアソン回帰モデルをMCMCに書き直してみる

MCMCでポアソン回帰モデル 一般化線形モデルの1つであるポアソン回帰モデルをMCMCで書いてみました。 ただし、大事な収束判定のところとか、その辺りについては全然入っていません。 簡単なmcmcのアルゴリズムを自分で書いてみたいという人の参考になればと…

Rでベータ関数を描いた

特に、何か面白いことをしたわけではないですが、 ベータ関数を描いたので、コード載せとく。 logf = function(x){ rr = 0 for(i in 1:x){ rr = rr + log(i) } return(rr) } #beta distibutionの点の値を求める関数 d_beta = function(theta,n=129,y=118){ r…

MCMC導入編 - Simulation Methodsの基本 -

こんにちは。 中間発表などで時間をとられたので、実に3ヶ月ぶりの更新となってしまいました。 でも、嬉しいことに、、、このブログ毎日300前後のアクセスを頂いていて、 書いている本人としてはとても嬉しいです。この記事のテーマはマルコフ連鎖モンテカル…

2014年の振り返り -統計とか、研究とか、統計でおみくじとか!-

今年も残すところあと1時間になりました。 2014年はなかなか楽しい1年でした。 というか、毎年楽しいんですけども。 そして、定番の2014年の振り返りを書きます。2014年1月に宣言した目標に対する結果は、こんな感じ。 ※統計で論文を1本書こうと思いました→…

アンサンブル学習の勉強をした話(雑記?)

アンサンブル学習?バギング?ブースティング? ここ2~3日ほど、アンサンブル学習って一体なんだ!?と思って、色々と本、論文を読みあさっておりました。たまに、データの分析で「バギング」とか「ブースティング」で解析しましたとか意味わからない言葉を…

僕が統計を勉強するのに使ってる本まとめ(14/12/06更新)

統計を勉強し始めて3年ぐらいになりましたが、その3年間で「あー、これ何度も見直してるな」的な本をまとめておこうと思い立ったのが午後4時ぐらいなのですが、せっかくの機会なので、書いてみようと思います。ただ、とにかく本を読むのが苦手な僕なので、レ…

pythonで一般化線形モデルと公式リファレンスの罠 - using statsmodels -

寒くなってきました。最近、pythonでデータの解析をすることにいそしんでおります。 Rでできることをpythonでやりたいなと思っていろいろ調べてみると、まぁなかなかできるようになっていなかったりするわけで、その辺を整備し始めたので、ここに書いていこ…

メモ@Python - sys.pathの問題「Extra/lib/python」という罠

夏休み以来、一度も投稿していませんでした。完全に、ブログ書くのも忘れて、研究にいそしんでおります...最近、Rからpythonに色々と移行しつつありまして、環境設定で、原因不明のエラーに苦しめられております。そろそろ、またいろんなlibraryを開拓し…

相関の概念をさらにもう一歩深めるために。-ケンドールのタウを考えてみる-

昨日のエントリーで相関係数の有意性を確かめるためにどうすればいいのかということを書きました。 相関係数の有意性を確かめる方法について -相関係数について1歩踏み込む- - Data Science by R and Python 相関係数の有意性を確かめる方法について -相関係…

相関係数の有意性を確かめる方法について -相関係数について1歩踏み込む-

相関係数とは? 相関係数については、8月のエントリーを参照してもらうと良いかと思います。 「相関係数」ってなんですか? -意味と利点と欠点をわかりやすく- - Data Science by R and Python 「相関係数」ってなんですか? -意味と利点と欠点をわかりやす…

PypeRでpythonからRを使う -- データ解析をpythonで!

PythonからRを使うための方法. pythonからRを使うためには、pythonにpypeRというパッケージ?をインストールする必要があります。こちらです:PypeR $pip install PypeRで導入して使ってみてください。 実際にPypeRを使ってみます。 PypeRを使ってみた結果…

pythonでggplotを使おう! -pythonによるデータ分析(2)-

ggplot2をpythonで使う。 Rを使っている人にとっては、ggplot2はおなじみな感じがしますが、pythonでもこれ使えるといいなということで、pythonで使える方法を探しておりましたら、"ggplot"はpythonでもあるんですね。 ggplot 0.6.5 : Python Package Index …

pythonでデータ分析(1)

R -> python さて、pythonでRと同程度以上のデータ解析をできるようになろうと決意して、はや1週間が経ちました。まだ、1週間かよ!という突っ込みはやめてください笑。ここ数日は、全力でpythonによるデータ分析入門を読み込んでいます。というか、写経して…

codeacademyでpythonを勉強してみたよという話

codeacademyとは? 今日はこれを紹介:Learn to code | Codecademy codeacademyはオンラインでプログラミング言語を学べるサービスです。昔、一度だけ使ったことがあったんですけど、そのときは、ありがたみがわかりませんでしたが、全力で勉強する気になる…

集中講義の感想 -3日間ブログ書けなかった言い訳など-

from: Multiple Imputation in Stata: Imputing 3日間の集中講義を受けてきました。 8/27~8/29の3日間朝9:00〜17:00の時間帯をぶっとうしで講義を受ける「集中講義」を受講していました。その疲れで、3日間ブログを書けませんでした...(←言い訳。今回の…

plotlyパッケージでグラフをシェアしよう! -Rによるグラフィックス-

Plotlyパッケージを紹介します。 PlotlyはRのグラフィックのライブラリで、グラフの作成や共有をインタラクティブに行えて、かつかなりハイレベルな図をブラウザーで表示できるという特徴を持っています。 実際、書いたものをアップロードして、URLでブログ…

正規表現の勉強をしたのでメモ(自分用).

//メタ文字 //[abc] :aかbかcのどれか一文字にマッチさせる //[]と一緒に使えるメタ文字 //[a-z]:a-zのうちのどれか //[^abc]:^(キャレット):これの中の文字以外の1文字 var s = '@tomoshige_n,@temoshige'; var rs = s.match(/t[^ao]moshige/); if(rs){ a…

ShinyをCSSで拡張しようぜ!(その2) - Rでつくるウェブアプリケーション -

ShinyのCSSでの拡張第2弾 今日は、昨日書いた記事の続きを書きます。昨日の記事では、wwwフォルダーの中にCSSファイルを入れて拡張しようということを行ったわけですけど、別の方法もあります。それが、紹介することです。HTMLをご存知の方は知っていると思…

ShinyをCSSで拡張しようぜ! - Rでつくるウェブアプリケーション -

Shiny 先日、記事で「Shiny」というパッケージを用いたウェブアプリケーションの作成方法についてお話ししました。今回は、そんなウェブアプリケーションをCSS(cascading style sheets)で拡張しようじゃないか!というお話です。こちらの記事により詳しく…

機械学習とは何か? - 自分なりに説明+具体例:サポートベクターマシン-

機械学習とは? 今日は、機械学習をテーマにしてブログを書いてみます。「機械学習」と言えば、Googleなわけですけど、最近Googleがワールドカップの勝敗予想を機械学習で行って「すげー!」っておそらく一部界隈では盛り上がりました。最近では一般にも「機…

時間ができたので一般化線形モデル(ロジスティック回帰)のコードを書いてみた

ロジスティック回帰 ロジスティック回帰モデルといえば、一般化線形モデルの代表格で、統計を少しでも勉強している人は知っている・聞いたことのある手法だと思います。今回は、そのロジスティック回帰を実際にRでプログラムするということをやってみます。…

Shiny -Rでつくるウェブアプリケーション!-

shinyでウェブアプリケーションを作成する Rでは、"shiny"というライブラリを使うことで、ウェブアプリケーションを作成することができます。僕も、最近知って今日初めて少しだけ勉強したので、ここに書いてみます。まだ、少ししか見ていないのですが、結構…

僕が、統計学を始めた理由 -興味の中心にはいつも「ヒト」がいるみたいです-

今日は雑記 今日まで何日か、Rの使い方を書いてきたので、今日は「僕が、どうして統計学」に飛び込んだかという話を書いてみようと思います。昨日から「Sunny Brain, Rainy Brain」という本を読んでいる影響です。ちなみにこの本には「ポジティブ」と「ネガ…

ヒートマップで行列を可視化する! -ggplot2を用いたmicroarray発現量の可視化をしよう!-

今日のテーマは「ヒートマップ」 ヒートマップというのは、行列を可視化する時などに便利な手法です。有名なのは「遺伝子発現」というのを可視化する場合です。この他、店舗の一人の人が買った商品を可視化するのに使ってみてもおもしろいかもしれません。同…

オープンデータを解析する- ggplot2を用いたボロノイ分割で厚木市のコンビニ出店を見てみよう!-

オープンデータ 今日もオープンデータを可視化して、何かの役に立ててみようということをやってみたいと思います。昔、同級生が卒業研究で画像認識をやっていて、そのときに「ボロノイ分割」というものがありました。聞いているとですね、いろんな分野に応用…

線形モデルを簡単にわかりやすく! -データに直線を引いて、傾向を捉えるときの注意点-

線形モデルとは 今日のテーマは「線形モデル」です。多くの人が聞き慣れている「線形モデル」という言葉ですが、これについて今回はお話ししたいと思います。線形モデルは、他に「回帰モデル」という人もいますし、「線形回帰モデル」ということもあります。…

大学のゼミどんなことしてるんですか? -数理科学・統計の中身-

雑記 久々に、実家に帰ってきまして。。。和歌山の海の近くでのんびりしながら、ブログを書いております。今日は、完全に雑記です。さて、大学で、研究室に所属すると「ゼミ」というものがあります。ゼミは、研究室毎にやり方が違います。基本は「研究の発表…

(番外編1)Rを使ったグラフィック -ggplot2でウォーターフォール図-

Rのグラフィックでウォーターフォールチャートを作成しよう! さて、今回はRでまさかのウォーターフォールチャートを作成するという完全に趣味の領域の話をします。 ウォーターフォールチャートとは まずは、Wikipediaから引用しましょう。 滝グラフ(たきグ…

確率の謎・ベイズの定理 - 2名のうち1名が女の子とわかったとき、2名とも女の子の確率? -

ベイズの定理?? 今日は、ベイズの定理について。ベイズの定理を聞いたことのない人もいるかもしれませんので、まずはベイズの定理から説明します。ベイズの定理は数学的には次のように書き表されます。 数式をみても、さっぱり意味の分からない人もいらっ…

(第2回)Rを使ったグラフィック -ggplot2-

Rのグラフィック第2弾 さて、前回の記事(第1回)Rを使ったグラフィック -ggplot2- - Data Science by R and Pythonから、時間が少しかかりましたが、ggplot2を持ちいたグラフィックの第2弾を紹介します。 描画要素の配置の指定を行う。 ここで、指定するの…

【予告】データフェストを開催します!(仮)

予告 9月27日(土), 28日(日)の2日間でデータフェストというイベントを開催する予定です。内容としては、2日間で「何かのデータ」を解析して、結果を導くというものです。対象は、データ解析を学び始めた、学んでいる大学生・院生とする予定です。 追記:…

データの見える化 - なんで見える化するのか(統計の基本) -

前置き 前回、長いブログを書いて、ちょっとお疲れモードなので、今日は短めに。夏休みブログ7日目。今日のテーマは「統計解析」の基本である「データの見える化」をする理由についてお話しします。 「見える化」とは 大学3年生(今からもう2年前)に始めて…

「相関係数」ってなんですか? -意味と利点と欠点をわかりやすく-

「相関」って何. 統計学を学んだことがあれば、誰もが一度は聞いたことがある「相関」という言葉。最近では、高校でも扱われる概念になったようですが、「相関」っていったい何でしょうか?教科書(という名のWikipedia)にはこういう風に書かれています。 …

疎な行列をRで扱う -R tips-

疎な行列(Sparse Matrix) ユーザーの購入履歴において、ユーザーを行、アイテムを列、アイテムを購入したら1、アイテムを購入しなかったら0となるような行列や、自然言語処理で用いられる単語文書行列は単語を行、文書を列、単語の出現頻度(出現の有無)…

【雑記|個人的見解として】大学の統計教育で統計を現場で使える人材は生まれるか?+何をすべきか?

* 本記事について(8/16) 本記事について、所属をかいたまま所見を述べるのは不適切であるという指摘をいただきましたので修正いたします。また、表現上適切ではない箇所がありますので、その点を加筆・修正いたします。 追記(8/16) それから、これは追記…

(第1回)Rを使ったグラフィック -ggplot2-

今日のテーマはRのグラフィック Rといえば、統計解析のソフトウェアという印象が強く、回帰・判別などいろんな手法を使えるソフトウェアとして認識されています。でも、それだけではありません。グラフィックにも強みがあります。plot関数をはじめ、histogra…

オープンデータを使ってみよう!-流山市の桜を最適なルートで回ろう!-

今回のテーマはオープンデータ! 最近、何かと話題のオープンデータ。今回は、オープンデータで遊んでみたよという記事です。オープンデータと言えば、「慶應義塾大学SFC研究所データビジネス創造・ラボ」と「アクセンチュア」が第2回データビジネス創造コン…

スポーツデータアナリティクス基礎講座 -反省・感じたこと-

スポーツデータアナリティクス基礎講座 先日のブログで、紹介したスポーツアナリティクス基礎講座に7/27(日)に登壇させていただきました。 【セミナー情報】スポーツ統計学の講座に登壇します - Data Science by R and Python URL : 7月27日 第1回 スポー…

夏休み!にやりたいこと!

夏休み 遂に、夏休みまで後2日になりました。夏休みというのは、名ばかりなわけですが。でも、時間があるのは確かなので、読んでみたい本とか、勉強・研究してみたい内容とか、まとめてみようと思います。まず、勉強・研究したい内容から。 勉強したい・研究…

戦略構築に活かす決定木 -Decision Tree-

今日のテーマ「決定木(けっていぎ)」 決定木は、統計の手法の中でも非常によく用いられる手法です。昨日、相談を受けていろいろ勉強したこともあるので、勉強した内容をここにまとめてみようと思います。まずは、決定木の説明と、どのようなケースで用いる…

【セミナー情報】スポーツ統計学の講座に登壇します

スポーツデータアナリティクス基礎講座 今回は、スポーツ統計学についてセミナーでお話をさせていただくことになりました。こちらにも案内と簡単な内容を書かせていただきます。 概要(スポーツ統計学とは) スポーツ統計学はデータ主導型マネージメントによ…

健康管理の未来 - データによって変わる未来

今日は、こんなテーマでブログを書きます。 データ解析のこれから データ解析をやり始めて、そろそろ2年目になります。いろんなデータに触れて、いろんな手法に触れて。まだまだ、やりたいないことだらけだけど、これからのデータ解析はどうなるのか?という…