Data Science by R and Python

統計学を、広く、深く、わかりやすく。

機械学習 - Naive Bayes Method

こんにちは。
最近、ちまたで流行ってる機械学習とかに手を出し始めております。
先日はサポートベクターマシン(通称SVM)を勉強して、ちょっと感動しました。
ここ数日はナイーブベイズ(単純ベイズ)について勉強しています。

ナイーブベイズ法と言えば、「メールの識別」で一躍有名になった方法です。スパムメールと、普通のメール(?)っていう2つを分離するための判別器を、これまでのデータから作っちゃうって方法です。なんか、凄そうです。

なんで始めたかと言えば、「教えてください!」とお願いされたからなんですけど、とっても楽しいです。が!!!やり始めてわかったことは「統計の初心者」は絶対に手を出してはいけない方法だってことです。統計の理論にそこそこ強くないと全くわからないで終わってしまいます。

何が単純ベイズだ!って話ですよ!

なので、もし初心者だけども、「ナイーブベイズ」を勉強しようと思っている方がいらっしゃるのであれば、是非やめてください笑。できれば「サポートベクターマシン」から始めることをお勧めします。もしナイーブベイズを勉強したいなら、近くにいる「統計に詳しい人」を捕まえて、「ご飯でもおごって説明してもらう」のが得策です笑。

最近の研究

最近の研究は「過分散性を考慮したモデル構築」、「一般化加法モデルの信頼区間推定」、「遺伝子データに対するノイズリダクション」などをやってます。夏からは、研究テーマを少し変えて「空間統計学」「時系列統計」あたりに照準を合わせていく予定です。

あと、夏休みは色々と自主ゼミ的なことをして「サポートベクターマシンの拡張」とか、「自然言語処理」「スパースデータ」などなどを遣って行くつもりなので、興味のある方はお話ししましょう。そして、カーネル法をちゃんと勉強せねば...