Data Science by R and Python

統計学を、広く、深く、わかりやすく。

2014年の振り返り -統計とか、研究とか、統計でおみくじとか!-

今年も残すところあと1時間になりました。
2014年はなかなか楽しい1年でした。
というか、毎年楽しいんですけども。
そして、定番の2014年の振り返りを書きます。

2014年1月に宣言した目標に対する結果は、こんな感じ。
※統計で論文を1本書こうと思いました→先人が凄すぎて圧倒されました笑。
※英語のスキルをあげる→1年前よりも読む速度は10倍ぐらいになった気がしますが、、、
pythonのスキルをつける→データの解析に耐えうるレベルまではきました!
※進路→まだ未定(笑)、、、でも、まだ研究したいと思っている段階

来年の目標は、来年決めますので、今年の振り返りだけします。

とにかく、今年1年はたぶん24年間生きてきて、一番勉強した年だった気がします。というよりも、ドラゴン桜的に言えば、歯を磨くように、研究室に向かっておりました。

f:id:tomoshige_n:20141231230750p:plain


そんな研究室で、同期・後輩とこんな記事を見て、「へーラーメンにプリン入れるとうまいのか!」と信じ込んで、入れてみたら「くそまずかった」のは、いい思い出です。

台湾で「カップヌードル」にプリンを入れる斬新な食べ方が流行ってるらしい 極うまらしい - ねとらぼ


今年やったことと言えば、ひたすら本・論文を読んで、さっき振り返れば(ちゃんと読み切れているかはさておき)、目を通した程度なら130本ぐらいの論文を読んでいました(ダウンロードは200本ぐらいでした)。ちゃんと読んでいるなと感じれたのは、そのうちの半分ぐらいの60本〜70本でしたけど。。。もっとちゃんと読みます、来年は笑。


それから、大学院の授業も春学期の授業は、勉強になりました(といっても、この授業しか取ってないんですけど笑)。「統計科学特論A」という授業で、線形混合モデルをベースにした授業(最後には、一般化線形混合モデルなどへ拡張する)でしたが、モデリングの基本的な部分を勉強できた気がしましたし、柔軟なモデリングの話をするときの理論的導入として、役立ちました。

シラバスに内容は書かれているので、興味のある方はどうぞ。

慶應義塾大学 講義要綱


そして、秋学期の授業のレポートほったらかしてるので、、、今、焦ってます笑。
(なんとかしなきゃ、、、(ノ≧ڡ≦)てへぺろ


それから、読んだ本で印象に残っているのは、Wood(2006)のGeneralized Additive Modelです。

Generalized Additive Models: An Introduction with R (Chapman & Hall/CRC Texts in Statistical Science)

Generalized Additive Models: An Introduction with R (Chapman & Hall/CRC Texts in Statistical Science)

この本は、7月末に開催されたスポーツデータアナリティクス基礎講座で話したときに参考にした文献です。平滑化スプライン、B-Splineなどを用いた、一般化線形モデルの話で、知らない世界を1ヶ月で説明できるようにならないといけなかったので、ハードだったなぁと。でも、この勉強で、いろんなものを頭の中に叩き込めましたし、勉強への耐性ができましたし、いい経験をさせてもらったなぁと思っています。おかげで、9月からの勉強がとにかく楽になりました!

ちなみに、4月〜6月は「遺伝子データの解析」について研究をしていたのですが、Terry Speedさんという方の論文に翻弄され、、、結果が出ずに断念して終わっています(笑)。でも、おかげで、遺伝子解析の周辺知識だけいっぱいつきました。遺伝子解析は、何を目指して、どんなことが今議論されてるのかがわかっただけでも、よかったなぁと。YahooやDeNAが今年の夏に参入したということもありましたし、この辺に対して自分なりの感覚が持てました。


遺伝子検査ビジネス ヤフーやDeNA、なぜ参入 :日本経済新聞


秋学期に入ってからは、もっぱら「欠測データ」について研究をしてきましたが、一貫して僕を苦しめてくださったのが、Rubin本(1987)です。とにかく、とにかく、証明をせずに「さらっと」大事な主張をなさるので、なんど深夜に「なんでやねん!!!』と叫んだことか。今では、すっかりお友達ですが。

Multiple Imputation for Nonresponse in Surveys (Wiley Series in Probability and Statistics)

Multiple Imputation for Nonresponse in Surveys (Wiley Series in Probability and Statistics)

で、今も研究は進行中です。それにしても、この「データの欠測」について考えるというのは、データ化を解析するという視点からだけではなくて、数学的な視点からも興味深いなぁと思っています。2015年は、この分野をもっと切り開いていきたいなと。

とりあえず、12月24日にセミナーで欠測データの解析について発表しました。
資料はクリスマス仕様にして、少しでも気持ちを紛らわせようと必死になってみました。

20141224_水曜セミナー


あと、合間を見つけては、機械学習を勉強しました。ナイーブベイズや、SVM、バギング、ブースティングは、本も読んだし、論文も読んだしで、随分と詳しくなれましたが、もうちょっと深めたいという感じなので、来年の引き続き課題です。ニューラルネットワークとかもやりたいですね。あと、カーネルの理論的な部分はきちんと勉強したいなと思っています。

サポートベクターマシン入門

サポートベクターマシン入門


あ、あれだけやるやる言ってた「時系列・ファイナンス系」は全くの手つかずです。「やるやる詐欺」のまま1年を終えてしまいました。いやー、残念。。。。うーむ、、、来年も「やるやる詐欺」になりそうなので、誰か春休みに「時系列」の自主ゼミしましょう。この本が読みたいです!

※時系列勉強してないからでしょうね。時系列順に書くべきブログも、ここまで来たらぐちゃぐちゃです。

まだまだ、書きたいこといっぱいあるんですけど、これぐらいにして、今年は終わりにします。
来年も、やることいっぱいです。夢いっぱいです。

2014年を通して、お世話になった皆様、ありがとうございました。
来る年も、どうぞよろしくお願いいたします。

p.s.
最後なので、おみくじの関数をつくっておきました。
興味のある人はRを開いて、来年の運勢を確かめてください。

omikuji = function(n){
	set.seed(n);
	x = rnorm(1)
	if(x < qnorm(0.025)){
		print("マジ乙、、、大凶です。")
	}
	if((qnorm(0.025) <= x) & (x < qnorm(0.1))){
		print("乙、、、凶です。")
	}
	if((qnorm(0.1) <= x) & (x < qnorm(0.5))){
		print("平凡です、、、末吉")
	}
	if((qnorm(0.5) <= x) & (x < qnorm(0.9))){
		print("ちょっとええやん、、、吉!")
	}
	if((qnorm(0.9) <= x) & (x < qnorm(0.975))){
		print("今年はええ年になりそうや!、、、中吉!")
	}
	if((qnorm(0.975) <= x)){
		print("運気使い果たしたな!、、、大吉!")
	}
}