Data Science by R and Python

統計学を、広く、深く、わかりやすく。

【統計の勉強をしよう!】何から始めれば良いのか?

統計学を勉強するためにはどうすればいいのか?

f:id:tomoshige_n:20091006234749j:plain

最近、「データサイエンス」とか「統計学」とか勉強するためには、どうすればいいでしょうか?という質問を頂いたり、個人的にも「どうすればいいのかな?」と思って考えているので、思うところを、個人的に書かせてもらいます。

 

そもそも、データサイエンス・統計学ってなんなの?

f:id:tomoshige_n:20140116031428j:plain

「データサイエンス」と「統計学」は、厳密には「違うものだ」という主張もあるのですが、大体同じものだと思ってください。もし必要になったら、この2つに定義を与えてく別をすることにします。とりあえず、「統計学」という名前で話は進めます。

そもそも、統計学ってどこから生まれたの?みたいな話をすることにしましょう。具体的な話は総務省統計局のウェブページが参考になりますし、英語が得意な方は洋書などで出版されておりますので、読まれると良いかもしれません。

統計学は大きく分けて3つの流派が歴史的には存在しています。

1.国の実体を捉えるための統計(ポリティカルサイエンス)

f:id:tomoshige_n:20140116031544g:plain

為政者(政治を行う人)は、常に自分の領内の状況を正確に把握しておかなくてはなりません。そのために発展したのが①の統計学です。センサス(人口調査)なんていうのもこの世界のお話です。どれぐらい人口がいて、どれぐらいモノが売れていて、みたいな調査もこの①のお話しになります。これも1つの「統計」であり、そのため国には統計局というものが置かれているということです。 

2.大きな事象を少ないデータから推測する/捉える(予測・推論)

f:id:tomoshige_n:20140116032438g:plain

これは、16世紀のイギリスで「ジョン・グラント」という人によって切り開かれた統計学です。先ほど、上で説明したセンサスはコストが大きく、何度も何度も実施することはできません。まして、ネットがない時代、手元にある情報だけで、どうにか全体の情報を手に入れたい。そのようなときに私たちは「推測」ということをするわけですが、それを数学的に考えるのが「統計的推論」です。

この他にも、大きな事象を捉えるという意味では、保険の世界では生命表というものが使われます。これは、国にいる人の死亡者数や死亡率を記載している表です。ここの人間の死というは非常に「偶発的」に起こりますが、たくさんのデータを集めてくる(集合をつくる)と、そこに「規則性」が生じることが分かっています。この事実を使って、保険会社というのは保険を作っています。そうでなければ、保険会社はギャンブルをしていることになります。 

3.確率論的なお話

f:id:tomoshige_n:20140116031736j:plain

さて、ここまではデータを集めて規則性を見いだすとか、直感的な話が中心でしたが、一方で数学の世界から発展してきた考え方があります。それが「確率論」という世界です。実際、統計での解析には、ここで成り立つ原則をベースにしてプログラム、アルゴリズムは作られています。僕も、この世界の住人です。

統計では「標本空間」という考え方が常に基礎にあり、期待値、分散など様々な数学的概念を用います。コインゲームをするときに、どういう賭け方をすれば最も儲かる可能性が高いのかなどを考えるのもこの世界のお話です。もう少し発展すると、大雨に見舞われる確率など自然現象なども確率的に記述することができます。

 

このような3つの大きな分野が混じりあって、統計学という分野が徐々に切り開かれてきています。そういう意味では、統計学というのは、「社会を数学的に記述する」学問であるといえるのかもしれません。

ともあれ、統計学を勉強するには、まず上のような「歴史」を知ることが、統計学の理解を助けてくれると思います。統計学ってどんなことしてるのかな?っていう疑問を持っている方も、何となくのイメージが掴めるはずです。

 

統計学を勉強するときの始まり。

 

 

f:id:tomoshige_n:20140116031951j:plain統計学は、「数学」などのようにずっと一本道的に発展してきた学問とは言い難いものです。社会科学、心理学、医学、数学、物理、化学、生物学、など様々な世界で使われる手法が混ざりあって、応用されて「統計学」という1つの世界を創りあげています。そのため、これは「数学的には」おかしいのでは?と思われる手法だってたくさんあります。

心理学で使われる「構造方程式」という方法が、物事の「因果」を記述するために使われたりしていますが、「それはいいのか?」と疑問の声があがっていることだってあります。そういう意味では、統計の世界は、「とても広い」がゆえの、曖昧さもあります。

 

それから実際に、統計をする人は「データを使う」イメージがありますよね。そして、きっと、統計を勉強したい人が興味があるのも「データを使う」こと。「データを使ってかっこいいことしたい!」みたいなモチベーションの方もいらっしゃいます。(実際何人か知ってます)。素敵なモチベーションですが、それだけだと「データ解析」をすることはできません。

でも、私たち(統計をする人)が「データを使う」となれば、そのデータがある世界のことを、どんな統計手法が用いれるのかを考えながら、その世界の勉強することになります。例えば、生物学のデータを使うなら、生物学にある程度の知識を持っていないと、データを読み取れませんし、結果を解釈できないということになるのです。

統計学の勉強は、そういう意味で「まず自分が何に関心があるのか」を明らかにするところから始めなくてはなりません。そうでなければ、相当に「数学」オタクでない限り、この世界を知るのはモチベーションが続かないと思います。なので、統計をしたい、データを使いたいと思う方は、まずは...

「自分は、何に興味があって、どんなことを明らかにしたいのだろう?」

というモチベーションを作ってもらうと良いかと思いますし、そのために統計を学ぶという姿勢をもって頂けると、勉強もスムーズになると思います。

 

実際、やり始めた僕の感想

こんな記事をそもそも、統計を本格的にやり始めて1年ぐらいのペーペーが何いってるんだと思われるかもしれませんが、統計学にはいっぱい魅力があります。この世界では、勉強していくうちに、好奇心が異様に加速します。飽きっぽい人でも、新しい手法が次から次に登場し、たくさんの分野に応用され広がっていきます。深く掘っていると、いつのまにか「広い世界」にも来てしまう。そんな魅力的な世界です。

そんなわけで、僕はいろんな人に、是非勉強して欲しいし、とってもオススメできる世界だなと感じていますよ!

 

【次回、第2話】

「わかった、じゃあ何から勉強する?」

をテーマにお話しします。

 

リンク:

総務省統計局

統計の歴史を振り返る〜統計の3つの源流〜|統計学習の指導のために(先生向け)

 

千葉大学のWang先生のpdf(統計学とは)

http://www.math.s.chiba-u.ac.jp/~wang/history.pdf