Data Science by R and Python

統計学を、広く、深く、わかりやすく。

僕が統計を勉強するのに使ってる本まとめ(14/12/06更新)

統計を勉強し始めて3年ぐらいになりましたが、その3年間で「あー、これ何度も見直してるな」的な本をまとめておこうと思い立ったのが午後4時ぐらいなのですが、せっかくの機会なので、書いてみようと思います。ただ、とにかく本を読むのが苦手な僕なので、レパートリーに限りがありまして「偏ってる」のは間違いありません。

それから、数理科学をやってる人の本棚です(それ数学的にどうなん?とか気になっちゃうような人が書いてます)。数式見て、無理そうですという人は、あまり参考にされない方が良いかと思います。そういう方向けには、いろんな方がオススメの本のブログなどを書いているのでそちらを参考にされるのがいいかと。。。※あと、以下のAmazonリンクから購入していただいても、僕には1円も入りません(笑)。

数理統計学全般

Statistical Inference

Statistical Inference

Statistical Inference

  • 作者: G.C. Casella,Roger L. Berger
  • 出版社/メーカー: Brooks/Cole
  • 発売日: 2008/06/07
  • メディア: ペーパーバック
  • 購入: 1人 クリック: 1回
  • この商品を含むブログを見る

とっても重宝する統計学の教科書的立ち位置なのがこの本です。統計学で扱う「集合」の話から始めて、「分布」とは何か、「統計的検定」などなど、たくさん載っていて、数理統計の基本でつまづいたときに必ず見直す1冊です。

入門・演習 数理統計

入門・演習 数理統計

入門・演習 数理統計

こちらは和書です。上のものよりも、ちょっと分量が少ないですが、こちらも数理統計を勉強する上で重宝する一冊。

統計学のための数学入門30講

統計学のための数学入門30講 (科学のことばとしての数学)

統計学のための数学入門30講 (科学のことばとしての数学)

統計学を勉強する前に、抑えておきたい数学の知識を整理している1冊です。といいつつ、僕も基礎が抜けててよくこの本に立ち戻ります。特に、行列計算などの基本的な部分や、逆行列の存在条件など、案外忘れてしまった知識を取り戻すのに役立ちます。

bayesian inference in statistical Analysis

Bayesian Inference in Statistical Analysis (Wiley Classics Library)

Bayesian Inference in Statistical Analysis (Wiley Classics Library)

ベイジアンモデリングなどをしていると、あまり数式が出てこなかったりして、計算が複雑なので結果だけ示されることがありますが、どうしても気持ち悪いとか、自分で導出したいぞ!という人向けの1冊です。事前分布・事後分布などの概念をそこそこ知ってないと手を出せないと思いますが、読めるようになれば楽しい1冊なんじゃないかなと。僕は好きです。

モデリング

多変量解析概論

多変量解析概論 (統計ライブラリー)

多変量解析概論 (統計ライブラリー)

1990年に出版された本ですが、多変量解析の基本的な部分に立ち戻るのに重宝している1冊です。線形回帰モデルとは何かを数式と図を用いて丁寧に説明してくれますし、決定係数とは何かなど基本的なものをきちんと定義してくれています。

一般化線形モデル入門

一般化線形モデル入門 原著第2版

一般化線形モデル入門 原著第2版

一般化線形モデルについて書かれた比較的読みやすい1冊かなと思っています。一般化線形モデルについては、有名なものとして久保先生の書かれている「データ解析のための統計モデリング入門」もあります(勉強会も開かれているほど、有名な1冊です)。ただ、僕は緑本は、もうちょっと数学的に書いてほしい。。。ということもあり、こちらの方をオススメします。

Generalized Linear Model, Second Edition

Generalized Linear Models, Second Edition (Chapman & Hall/CRC Monographs on Statistics & Applied Probability)

Generalized Linear Models, Second Edition (Chapman & Hall/CRC Monographs on Statistics & Applied Probability)

一般化線形モデルを提案したNelderが共著者になっている本です。僕もまだこの本全体を理解できていませんが、一般化線形モデルをかなり深くまで掘り下げて書かれている1冊です。ただ、結構わかりにくい気はしています。

Generalized Additive Models: An Introduction with R

Generalized Additive Models: An Introduction with R (Chapman & Hall/CRC Texts in Statistical Science)

Generalized Additive Models: An Introduction with R (Chapman & Hall/CRC Texts in Statistical Science)

一般化加法モデル(一般化線形モデルに対して、スプラインを使って拡張する)についての本です。ここまでくると、かなり柔軟なモデリングが可能になります。一般化線形モデルはある程度わかっていないと読めないかもしれません。。。過去に、野球データ解析の際に用いています(下のスライドの後半を参照していただければ)。

20140727_第1回スポーツデータアナリティクス基礎講座

機械学習

The Elements of Statistical Learning

The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (Springer Series in Statistics)

The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (Springer Series in Statistics)

Stanfordの教授陣が「統計的学習」について書いた一冊です。有名なのはPRMLパターン認識機械学習)ですが、僕はこちらを読んだのでこっちを紹介します。最近、和訳が出ていました。

入門パターン認識機械学習

入門パターン認識と機械学習

入門パターン認識と機械学習

機械学習を数学やってる人が入門するのに結構いい本だと思いました。PRMLは個人的に読みにくいなーと思っていましたが、こっちは読みやすかったです。

言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)

自然言語処理系を機械学習で行う際には参考になる1冊です。夏休み前にナイーブベイズで文書分類をしたいというオーダーを頂いて、読んでお話しさせてもらいました。初版には誤植などもありますが、最近のものは誤植は修正されていて、きちんとしているようなのでSPAMメールなどの分類とかやってみたいというのであれば読むのがいいかなと。

Python, Rで分析・解析

Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理

Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理

Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理

Pythonでデータ処理のやり方を覚えるのにまず最初にやった1冊です。この本で、大体の基本的なことを学びました。今でも見直して、「あー、そうだったそうだった」と想い出すのに使ってます。

集合知プログラミング

集合知プログラミング

集合知プログラミング

Python機械学習するなら、持っておいた方がいいかなと思う1冊です。とにかく、話題が豊富で、機械学習に興味のある人なら、どこかの章がひっかかるんじゃないかなと。

入門機械学習

入門 機械学習

入門 機械学習

とりあえず、機械学習をRでやってみたいというのであれば、この本が参考になりました。ただ、Rで学ぶデータサイエンスシリーズというのもありまして、こちらの方が好きな方もいらっしゃるようです。

Rで学ぶデータサイエンス(シリーズものです20巻ぐらいあるんじゃないかな)

カテゴリカルデータ解析 (Rで学ぶデータサイエンス 1)

カテゴリカルデータ解析 (Rで学ぶデータサイエンス 1)

こちらはシリーズ物で、Rで様々なデータ解析をやってみようというコンセプトのもとつくられているので、手を動かしながら解析を行っていくことができます。

まとめ

これは、完全に僕の本棚的なものなので、参考になるかどうかわかりませんが、参考になった方がいらっしゃれば幸いです。