Data Science by R and Python

統計学を、広く、深く、わかりやすく。

データの読み方|解析結果にだまされないようにしよう!

保護者の年収や習慣と、子供の学力の関係性についての調査が出ています。特に身近だから「年収と子供の学力」には「線形的な」関係があるというところで、TwitterでRTされて盛り上がってるけど、調査内容を少し斜めから見て、疑ってみても良いかもしれません。

もちろん、そういう関係があるかもしれないけど、統計やってる人間からすると、それが偶然なのかもしれないと疑ってみて欲しいです。

例えば、「1日の排気ガスの年間排出量」と「日射量」が相関してれば、排気ガスは1日の日射量との間に線形関係がある!って結論づけますか?ということです。

身近だし、年収と学力って関係しているような気がするから、安易に納得するのはわかるんですけど、背後に見落としている何か大事な「因子」がないかとか、その関係性から外れている人にはどんな特徴があるかとか。そういうところに是非注目してデータはみると、データに騙されなくなるし、理解も深まると思っています。

あと、調査標本数が各世代で同じか、そうではないのかとかも注目すると良いかもしれません。年収500万円と、年収800万円の人の人口比率はそもそも同じではなく、調査した標本数に違いがあれば、結果の分散や、信頼区間が変わるので、調査結果が「有意ではない」ということだってあります。

あとは、こういうアンケートに答えてくれる親の属性ってどんな人でしょうか?サンプルの抽出方法に問題はないのですか?と疑うのもいいポイントかと思います。

データの読み方ってなかなか難しいのです。とにかくデータ、解析結果に騙されないようにしていきたいものですね!

保護者に対する調査:国立教育政策研究所 National Institute for Educational Policy Research