Data Science by R and Python

統計学を、広く、深く、わかりやすく。

データの見える化 - なんで見える化するのか(統計の基本) -

前置き

前回、長いブログを書いて、ちょっとお疲れモードなので、今日は短めに。夏休みブログ7日目。今日のテーマは「統計解析」の基本である「データの見える化」をする理由についてお話しします。

f:id:tomoshige_n:20140121012920p:plain

見える化」とは

大学3年生(今からもう2年前)に始めてデータを触り始めた時、先生がいつも言っていた言葉があります。

データ解析は「背後に潜む」構造を探る行為.
そのためには、周辺知識、統計の知識が必要である.
それに加えて大事なのが、データの「見える化」だ.

一見すると、これは「当たり前」のことのように感じます。僕も、当時は...

「そりゃ、データは数字の羅列だから、図にした方がわかりやすいでしょ?」

と思っていました。でもいざ、データに向かってみると「見える化」することに意識が回らなくなることがあります。それは、なぜかというと「見える化」することの「意味」を自分の中に腹落ちさせられていないということが大きな原因です。では、どうして「見える化」しないまま進むのでしょうか?

可視化をしない理由

実際、大学でTAをしていて学生を見ていると、データの数字と、サマリーだけを眺めて「結論」を出そうとしてしまう人がいます。そのとき「データを図にして眺めた?」と聞くと、「データの要約値があるので、大体のことはわかりました。」と返答されることが多くあります。

そう、彼らにとっては「結論を導くために、可視化は不要」です。そして、レポートを見ると「導きだされている結論」が不正確であったり、ときには間違っています。もちろん、大学の講義は間違えて訓練する場所なのでOKだし、学んでもらえれば全然嬉しいんですけど、、、これが現場だと困りものです...

結果だけ出れば良いという姿勢が招くミス

これを僕は、「結果」だけ出ればいいという姿勢が招くミスだと思っています。データを見て、予測と言えば「(データを見ずに)回帰!!」という考え方もこのうちの1つですけど。

多くの場合、私たちは「結果」を求めるあまり「視野が狭くなって」います。つまり「木を見て、森を見ていない」わけです。そして、僕はこれを「数字の悪いところ」だと思っています。「数字」は人をだまします。そして、思考を停止させ、「結論」を急がせます。

よくあるケースでは、データがあると「平均」と「分散」は確認しますが、残念なことに「どんな風に散らばるか」までは意識がいかない。分散が大きい理由が、「本当にばらつきが大きいのか」、それとも「はずれ値に引っ張られてるのか」は大事なはずなのに、数字があればいいでしょとどこか思ってしまう。

でも、(ありのままの)森を見ないと、やっぱりいい戦略、いい提案、いい洞察はできないですよね。目の前につくった(平均値)っていう木とか、(分散)っていう木とか、線形関係を示してくれる(相関係数)っていう木とかだけじゃ、わからないことはたくさんあります。

全体と部分は、2つ見て始めて意味を持ちます。「僕の友達○○だから、世の中もだいたい○○だろう」という結論がおかしいように、「相関が0.6だから、全体のデータは○○のように散らばってるだろう」と結論づけてはいけません(例がおかしいかも...)。なので、結論を急ぎたい気持ちはわかりますが、ひと呼吸置いて「全体も見てみよう」という余裕が大切なのかもしれません。

伝える気持ちとか...

見える化」する上でもう1つ大切なことは、「サービス精神」だと思います。何でもかんでも「見える化」すればいいということではありませんが、人に見てもらうものだから「相手が素早く、苦労なく、直感的に」意味を読みとれるように工夫しようとか、「きちんと全てを検討して、嘘のないことを相手に伝えよう。」という気持ちとか、相手を思いやる気持ちも意外にもデータを解析する上で大切だと思います。

※ただ、思いやって「嘘」を報告するのだけはよくないです。

結局、見える化は何のためにするのか?

僕が、今のところ思っているデータの見える化の理由は

  • 木を見て森を見ずにならずに、データを全体をきちんと捉える
  • 森を見ることで、木の数字だけに結論を引きずられて、誤った解釈を導くことを防ぐ
  • 相手に主張をすんなりと理解・納得してもらうためのツール

まとめ

データの「見える化」はRではコマンド1つなのに、すぐに行わなかったりするんですよね。自分で書きながら反省しました。そして、TAをやってて、後輩に「見える化」の大切さを伝えていますが、僕も2年前は先輩から「見える化」の大切さを教えてもらいました。データの解析で大切なことは、統計知識・周辺知識だけだと思われがちですが、それだけではないということでした。

研究に戻ります。

楽しい、楽しい補足!

解析におけるデータの可視化とは、話が違います。が、最近は、「データビジュアライゼーション」の名の下に、いろんな「可視化」をサポートするサービスがあります。僕も楽しくて見入ってしまうことがよくありますが、よくできてるなー!と思ってしまうものばかりです。

  • 東京の風速・風向を可視化してくれるサービス

URL : 東京風速

  • 音楽の歴史を可視化してくれる

URL : Music Timeline

  • btrax

見える化が加速する -【いまさら聞けない】データビジュアリゼーションとは?? | freshtrax | btrax スタッフブログ