Data Science by R and Python

統計学を、広く、深く、わかりやすく。

【雑記】データ解析の現場にきて思うこと

こんにちは。今週の水曜日(5/14)に学内の発表があるのでその準備に追われています。60分の発表なのに、120分ぐらいのスライドをつくってしまったのでどうしよう...と途方に暮れているのが今です。

発表内容はこちら

20140512_水曜セミナードラフトv1


さて、今年は本格的に「理論」と「実践」を行ったり来たりする1年です。
大学では主に「理論」の研究と「シュミレーション」をしていて、4月からお世話になっている企業では「実データの解析」をさせてもらっています。とにかく時間がないので、週7日統計と向き合うという状況が続いています(笑)。

まず、現場に来て思うことを述べる前に、僕は、データベースとか、そういうのがいじれない人で本当に「解析理論」と「データの解析」に特化した人だということだけご理解ください(最近、ものすごい反省して、ちょっとずつ一歩ずつ勉強中です。できる人、尊敬です....)。そして、今の生活が始まってまだ2ヶ月な初心者的視点から色々と感じることを書いています...ご容赦ください。

アカデミック → データ解析の現場

  1. データ解析ではなく、データ分析+回帰(線形・ロジット)をしてる感じ。
  2. データをみるという基本がない。適当にデータを分割したり、NAを0に補完したりやりたい放題。
  3. 統計の理論を理解している人が著しく少ない(回帰って何?の数学的意味を説明できないと思う)
  4. 解析の目的設定に、手法がついていってない。(目的は現代、手法は2世紀前)

データ解析の現場 → アカデミック

  1. データベースをきちんと操作できるぐらいの知識は身につけるべき。(僕の課題(ほんとご迷惑をおかけしてるところ)。大学で解析とは別にやるべき。)
  2. 大学の授業は、データ解析の現場に対応できていない。解析は【目的】の設定が重要なのに、光が当たってるのは「理論」や「Rの使い方」ぐらい。
  3. 目的設定の方法を覚えてからきて欲しい
  4. 多くの人にとって、データ解析の現場に入ると、大学の授業で勉強していることがおおよそ「無意味」「無価値」。
  5. 理論的な人で、「直感的に」「イメージ」で「知らない人」に説明できる人が欲しい。

なんというか、歯車食い違い状態

歯車が食い違っていて、どうしようもないのがアカデミックと現場。2つの立場を持って、双方の立場から、もう片方をみていますが、みるに耐えない状況が続いています。なんにせよ、上記のことは機械学習系(アルゴリズム系)の方々には関係ない(のかも)しれませんが、、、「未知のデータを扱うデータ解析」場合には、致命的な状況なんじゃないかなと...

この溝、埋めなきゃヤバいんじゃねぇ...と感じています。

具体的な方法は...

どうすればいいんだろう?と思っていますが、自分なりにこんなことを思っています。結論から言えば、「理論系がんばれ、もっと!

  1. (理論系の人)から入る人は希少で大事。でも、現場に出たいなら「専門バカ」にならないようにする。時系列・教師あり・教師なし・GLM, GMMなどの基本的な手法を「数学的に」すべて抑えておくことが望ましい。あとは、現場で必要な「github」の知識とか、一応xlsとか、データベース系+Pythonは一通り勉強しておく。
  1. (現場系の人)もうちょっと待ってくださいって感じ。実践+理論系の人が、実践の人に、直感で分かる「理論」の本と、ありそうな「解析の一定手順」のマニュアルをつくっていく。

まとめ

なんか、最近論文ばっかり読んでー・書いてー、ってしてるので、なんか文章がぐちゃぐちゃです。
ひどいですね。
でも、アカデミックと現場に入って、「データ解析の今」をみて、やっぱり統計教育(データ・リテラシー)の重要性はとても感じますし、この辺で何かやっていきたいなと思っています。分かれば、こんなに明快で楽しいことはないと思っています。

これぐらいにします。
この気持ちが1ヶ月後どうなるか気になります。
おやすみなさい。