Data Science by R and Python

統計学を、広く、深く、わかりやすく。

推定量の一致性(大数の法則)の感覚的に理解をする

久々の更新です.

今日,シミュレーションで久々に推定量の一致性(大数の法則)を可視化してみたので,せっかくなのでブログに載せておこうと思います.

データを発生する確率変数 {X}の分散を {\sigma^{2}}とします.このとき,確率変数{X}から発生させられたサイズの {N}標本から,真の分散 {\sigma^{2}}を推定することを考えます.このとき, {\sigma^{2}}に対する不偏な推定量(期待値の意味で, {\sigma^{2}}に一致する推定量)は,


\begin{align}
 \displaystyle \hat\sigma^{2} = \frac{1}{N-1}\sum_{i=1}^{N}\left(x_{i} - \bar{x}\right)^{2}
\end{align}

で与えられますが,この推定量は一致推定量(標本が十分大きくなると,真値である {\sigma^{2}}に収束する)であることも知られています.ここで, {\bar{x} = \sum_{i=1}^{N} x_{i}/N}であり,標本平均です.

推定量は確率変数の関数であることから,確率変数がばらつきを持つ以上,推定量もばらつきを持ちます.しかしながら,一致推定量は,標本サイズ {N}が大きくなると,真値からのばらつきはどんどん小さくなり,ばらつきが {0}に収束していくということを意味します.式で書くと,次のようになります.

任意の {\varepsilon > 0}に対して,次の式が成立する.


 P(|\hat\sigma^{2} - \sigma^{2}| > \varepsilon ) \rightarrow 0, \qquad n \rightarrow \infty

これは,「 {\hat\sigma^{2}} {\sigma^{2}}に確率収束する」ということを述べています.最後に,これを視覚的に表した図を示して終わろうと思います.以下のコードを実行します.これは,標本数がn.candの時のときの,標本分散をj.num(ここでは50回)計算して,それをプロットするということを行っています.これによって,標本数に対して推定量のばらつきがどのように変化するかが可視化されます.

set.seed(20160607)

true = 2
n.cand = c(2,3,5,10,20,50,100,200,500,1000,2000,10000)
j.num=50
res = matrix(0,length(n.cand),j.num)


for(i in 1:length(n.cand)){
	for(j in 1:j.num){
		n = n.cand[i]
		x = rnorm(n,mean = 0 ,sd = true)
		res[i,j] = var(x)
	}
}

for(j in 1:j.num){
	if(j==1){
		plot(log(n.cand),res[,j],type="l",ylim=c(min(res),max(res)),main="Convergence of Sample variance",ylab="estimated variance",xlab="log of sample size",xaxt="n")
		axis(1, at=log(n.cand), labels=n.cand)
	}else{
		points(log(n.cand),res[,j],type="l")
	}
}
abline(h=true**2,col=2)

結果の図

f:id:tomoshige_n:20160607231830p:plain
見ていただくとわかるように,徐々に赤線で書いた真値へ収束しているのが見て取れます.
やはり,視覚化するとわかりやすいです.内容はここまでですが,少々告知をさせてください.

宣伝

6月9日発売の岩波データサイエンスvol.3に「傾向スコアを用いたバント効果の解析」というテーマで寄稿させていただきました.大リーグのデータを用いてノーアウト1塁における犠牲バントの効果の検証を行った内容を掲載しております.本全体としましては(私も章立てしか存じませんが)調査観察データを用いた統計解析などに役立つ内容となっています.本は,基礎パートと,事例パートに分かれており,特に前半の星野先生の「統計的因果効果の基礎―傾向スコアと操作変数」と合わせて読んでいただければ,私の内容はわかりやすいかと思います.是非,手にとってご覧下さい.

公式:岩波データサイエンスVol.3
サポートページ:岩波データサイエンス