読者です 読者をやめる 読者になる 読者になる

Data Science by R and Python

統計学を、広く、深く、わかりやすく。

【2日目】統計を学ぶ人のための測度論(1週間限定独りリレーブログ)

こんにちは,2日目の記事はいろいろ悩みましたが,「統計のための測度論」ということで書いてみようかと.最初に断っておきますが,「理論的厳密さ」よりも,「直感的理解」を優先して書きますので,その辺り気持ち悪い人は,Wikipedia/数学書(最後の参考文献)などを参照ください.

さて,測度論といえば,Twitterをみている限り,勉強会で統計を勉強し始めた人が「本格的に避けたい」分野になっているような気がします.その実情が垣間見えるのは,こちら(※逆に,統計やってるのに測度知らないとか...みたいなことを書いてる人もいて,gkgkbrbrしました(´・ω・`)).

twitter.com

数学を専攻していた学部時代の僕でさえ正直なところ,統計やるんだからなんで必要なんだ?と思っていた時期があるぐらいですから,統計を知っておきたい/勉強を始めたい!という方に取って,これほど負担になっている分野はないことでしょう...

そこで,統計のための測度論というテーマでブログを書いてみます.できる限り,分かりやすく,説明する予定ですが,時間の関係上粗くなる箇所もあるかもしれませんのでご了承ください.

測度は「統計を勉強するとき」どこで使うのか?

勉強するには,モチベーションが大事なので,まずは「統計やってて,どこで測度ってでてくんねん?」を解消しましょう.誤解を恐れずにいえば,ビジネス書程度の統計の理解が必要な方(平均/分散/標準偏差/検定の基本事項などを頭に入れておくべき方)にとっては,この分野に時間を割くのは効率が良いとはいいがたいかなと思います.しかし,統計の世界をより詳しく,「確率って何だ?」「分布って?」「分布の期待値計算するとき,積分の中にf(x)とかp(x)とか書いてるけど,あれどっから来たし?」などなど疑問を晴らしながら進むためには,知っておいて損はありません.

皆さん大好き,MCMCだって,測度がわかっていなければ「アルゴリズムで得られるサンプルが,目的の事後分布からのサンプルになっている」なんて証明することすらできないんです(※Total Variation Normという,確率測度の差のノルムの上界が0に収束するということを示したりするのですが).

と,こんな感じで統計の確率分布などに触れて,細かいところが気になり始めると「測度」というのは切っても切り話せないお友達になるわけです.で,一口に測度論を勉強しましょうといいましても,数学的な基礎の基礎について復習をしていたら間に合いません.そこで,特に「お友達」になるべき「測度の基礎」と「確率測度」という測度に限ってここでは話していくことにします.

測度とは?

まず,測度とはその名の通り「何かを測る」ためのものだということです.
で,具体的に何を測るのかといえば,統計では特に「事象」の「起こりやすさ」を,[0,1]の値で表される「確率」に対応させて「測る」わけです.
(※単に測度といわれた場合には,[0,1]に対応させる必要はありません.)

そこで,統計て使われる「確率測度」の測度の感覚を掴むために,天気を例にとって考えます.

A を「雨が降る」という事象だと考えましょう.すると,この事象の起こりやすさをμという測度で測るというのは,「μ(A) = なんらかの値を対応づけること」と考えることができます.しかしながら,ここで問題になるのは「起こりやすさ」というのは「相対的な概念」であるという点です.つまり,「晴れる」「曇る」「雪が降る」などのそれぞれの事象があってはじめて,「雨が降る」という事象の「起こりやすさ」を定義することができます.

そこで,次のように考えれば良さそうです.

まず,「天気」のおこりうる全ての事象を含む集合を考えます(今回は簡単のため3つの事象で,晴れ,曇り,雨にしましょう).これを X = {晴れ,曇り,雨} とおいておくことにします.さらに仮定として,お天気は3つの事象のいずれか1つに定まるとして,かぶりがないとします.つまり,晴れでもあるし,曇りでもあるという状況がないと考えます(分かりにく場合には,1つのサイコロを振ったときが1の目と2の目は同時に出ないのと同じことです).

さて,このときまずはXそのものの集合を測ることを考えます.これは実際には,何にしても良いんです.{\mu(X) = 100}としてもいいし,{\mu(X) = 1}としても構いません.ただし,{\mu(X) = 0}や,{\mu(X) = -1}などとするのは,直感に反します(※理由は,後で分かりますが,起こりやすさの程度の議論をしていて,どれか一つが起こるはずのすべての事象の集合の大きさが0や負の数というのは,直感的におかしそうですよね).よって,我々としてはμ(X)に対して正の値を対応づけることにしましょう.ここでは,{μ(X) = a > 0}という値を対応づけます.

次に,{晴れ}という事象が,どの程度起こりやすいのかを考えます.ここで,μ({晴れ}) = b という値を対応づけます.ここでも,起こりやすさの議論をしているのでbは負の数にはなりません.一方で,b=0というのはあり得ます.つまり,{晴れ}になることが絶対になければb=0だからです.一方で,b > a となるのはおかしい気がします.つまり,天気をみたときに{晴れ,曇り,雨}のいずれかであるという「起こりやすさ」と,{晴れ}であるという起こりやすさは,明らかに現実的には前者の方が起こりやすいわけですから,b は aよりも小さいか,等しいでなければおかしいわけですね.

同様に考えると,{ \mu(\{曇り\}) = c,\mu(\{雨\}) = d},としておけば{b,c,d}はそれぞれ同じ性質を満たすはずです.では,最後に,先ほど「晴れ,曇り,雨」はどの2つも同時には起こらないといいました.つまり,{晴れ},{曇り},{雨}のどれか一つが起こる「起こりやすさ」の和,{晴れ, 曇り, 雨}の事象が起こる起こりやすさと等しいと考えるのが自然です.よって,

$$ a = μ(X) = μ(\{晴れ, 曇り, 雨\}) = μ(\{晴れ\}) + μ(\{曇り\}) + μ(\{雨\}) = b + c + d $$

となります.ここで,μ(X)にはどのような値を対応させても良かったわけですから,両辺をaで割った値を対応させることにすれば

$$1 = μ(X) = μ(\{晴れ, 曇り, 雨\}) = μ(\{晴れ\}) + μ(\{曇り\}) + μ(\{雨\}) = b/a + c/a + d/a$$

となります.このようにすれば「どれか一つが起こる」という起こりやすさは1であり,それぞれの起こりやすさは上記の足し算のそれぞれに対応します.ここで,{a > b,c,d}ですから,{ μ(\{晴れ\}),μ(\{曇り\}),μ(\{雨\})},はそれぞれ0以上1以下の値に対応づけられます.

これは,もしや,,,「確率」なんじゃないか!このように考えれば,確率と測度が結びつくわけですね.
では,もう少しこの議論を数学的に落とし込んでみましょう.

測度の定義を述べよう

上記の例は,あくまで「例」なわけで,実際に参考書においては「測度」を定義する際に,様々な言葉が使われています.ただ,我々の考えたい「測度」というのが,「ある事象」に対して「起こりやすさ」を,決めてやるものであるということは理解できると思います.これを数学的に落とし込んでみましょう.

ただ,上記では「起こりやすさ」と書いていますが,この「測度」の考え方はもともと,面積、体積、個数といった「大きさ」に関する概念を精緻化・一般化したものであることは指摘しておく必要があります.ここでいう「起こりやすさ」というのも,「ある事象」の「起こりやすさ」という「大きさ」の1つであると考えているわけですね.

さて,Wikipediaによると,測度とは以下のように定義されます.

集合 {X} の部分集合からなる完全加法族 {A} 上で定義される可算加法的測度 {\mu} とは拡張された区間 {[0, \infty]} に値を持つ(つまり、無限大も許す非負値の)関数であって、次の性質を満たすもののことである:

1.空集合の測度は 0 である。
$$ \mu(\emptyset) = 0. $$

2.完全加法性(可算加法性): {E_1, E_{2}, E_{3}, \cdots} がどの二つも互いに共通部分を持たない {A} に属する集合の列ならば
$$\mu\left(\bigcup_i E_{i} \right) = \sum_{i} \mu(E_{i}) $$
A の元は可測集合 (measurable sets ) と呼ばれる。 また、 数学的構造 {(X, A, \mu )} は 測度空間 (measure space ) と呼ばれる。 次の性質は、上の定義から導かれるものである:

{X}は「標本空間(sample space)」と呼ばれます.これは,ある実験(試行)を行ったときに, 起こり得る全ての結果の集合を指しています.上記の天気であれば,明日の天気を予想しましょう!という実験を行ったときに起こりうる全ての結果の集合であり,{X = \{晴れ, 曇り, 雨\}}のことになります.この結果の集合は「有限個」であっても,なくても構わないです.

次に,完全加法族{A}です(可算加法族/シグマ加法族と呼ばれることもあります).言葉としては難しいですが,起こりうる事象の冪集合{2^{X}}(の正確には,部分集合)で表現されるものであると考えてください.冪集合{2^{X}}といわれた場合には,これは{X}の任意の部分集合を元とする集合の族を指しています.これはつまり,{X = \{晴れ, 曇り, 雨\}}に対しては,次のように求めることができます.

$$ 2^{X} = \{ \{\emptyset\}, \{晴れ\}, \{曇り\}, \{雨\}, \{晴れ, 曇り\}, \{晴れ, 雨\}, \{曇り, 雨\}, \{晴れ, 曇り, 雨\}\} $$

ここで,どうして「完全加法族」というのが必要なの?という疑問が出てきます.標本空間だけあれば十分な気がするけど?と思うのですが...まずは,上記で定義される「完全加法族」というのがどのような性質を持つのかを確認します.

集合 {X} とその上の冪集合 {2^{X}} に対し、{X} の部分集合族 { \Sigma \subset 2^{X} }{X} 上の完全加法族であるとは、以下3つの性質を満たすものである

{\Sigma} は空でない: 少なくとも一つの {A \subset X}{\Sigma} に属する。

{\Sigma} は補演算に関して閉じている: {A}{\Sigma} に属するならば、その補集合 {X\A}{\Sigma} に属する。

{\Sigma} は可算合併に関して閉じている: {A_{1},A_{2}, A_{3}, \cdots}{\Sigma} に属する集合の列ならば、それらの合併 {A = A_{1} + A_{2} + \cdots}{\Sigma} に属する。

一方で,測度というのは「関数」なわけですから,どんな「範囲」で定義される関数なのかがとても大事になります.ここで,測度というものを完全加法族上の関数として考えてやることで直感に反しないように定義することができます.先ほどの議論からもわかるように,測度というのは,満たしてほしい重要な性質があります.

それは,まず空集合{\emptyset}に対しては{0}となることです.確率でいえば,ある試行を行った際,その結果が空集合に属するというのは「起こることはない」わけですから,空集合に対しては{0}であるように定義します.これが,上記の定義の1つ目です.

1.空集合の測度は 0 である。
$$ \mu(\emptyset) = 0 $$

次に,特にさきほど確率を考えているときには,{晴れ, 曇り}という事象が起こる「起こりやすさ」である{\mu(\{晴れ, 曇り\})}というのは,{晴れ}と{曇り}は同時に起こらない場合には,その「起こりやすさ」は$\mu$({晴れ}) + $\mu$({曇り})と分解しても,同じになってくれないと困るわけですね.そして,ここで先ほどの可算加法性が大事になるわけですが,{晴れ}と{曇り}という2つの事象の上で関数$\mu$が定義されていても,$\mu$が {晴れ, 曇り}上で定義されていないと困ります.そういった意味で,測度を可算加法族上での関数と考えるのは,目的にあっているような気がします.そして,確率を考える上で何より大事なのは,同時に起こらない2つの事象の和集合は,2つの事象の和に分解できるということです.$\mu$({晴れ, 曇り}) = $\mu$({晴れ}) + $\mu$({曇り}).これを,一般的に書いたものが以下の性質ということになります.

2.完全加法性(可算加法性): {E_1, E_{2}, E_{3}, \cdots} がどの二つも互いに共通部分を持たない {A} に属する集合の列ならば
$$\mu\left(\bigcup_i E_{i} \right) = \sum_{i} \mu(E_{i}) $$

これが「測度」というものです.最後に,用いたい「確率」という概念に対応させるためには,次の条件を追加してやれば良いわけですね.

全空間{X}の測度は,{\mu(X) = 1}である.

これで,確率測度が得られたことになるわけです.一般的に確率測度といわれた場合にはこのような{\mu}{P}として表すことが多く,このように記述されれば,「あ,確率のこといってるんだ!」とわかりますよね.

まとめー測度論とは結局「大きさ」を「測る」こと

結局,測度とは,「大きさ」を「測る」ことを意味しています.その大きさに「起こりやすさ」という意味を持たせると,そこに「確率」という概念が登場してくるわけです.統計の下地にある「測度」という概念は,ともすれば見落としがちですが,統計を学んでいくと「測度」について考えざるを得ないという状況はよく遭遇しますし,「測度」という概念を知っているだけで,読める本や論文の幅も広がります.上記の例では「離散」かつ「有限」な事象の可算加法族上の測度について話していますが,実際には「連続空間」上の「無限」な事象の可算加法族上でも測度は定義されます.そして,統計をやっている人が,きっと最初に学習する「正規分布」というのは,その測度の1つであり,何気なく「正規分布の仮定」でいいや!と言っているのは,その事象の起こり方について「自分が知っている」と仮定したもとで,事象の「起こりやすさの尺度」である「測度を定義している」ということに対応しています.また,目的変数が離散0か1なら「ロジスティック回帰」というのも,結果変数に対して「ベルヌーイ分布」を仮定していて,同じように起こりやすさの尺度を自分たちで無意識に仮定しているんですね.

と,こんな感じで,測度という概念はいろんなところに登場しておりまして,普段統計を使うときには気にしないでもまぁ大丈夫なものだと僕は思っておりますが,緻密に議論をしたい,統計をやっていて「ここは何だ?」と思い始めてしまった,そんなときには是非「測度」に立ち返ってみようかな?と思ってもらえれば嬉しいかなと思いました.

僕も,最初はきらいだった測度ですが,最近は友達ぐらいにはなれたかな?と思っています.周囲に,こういう数学の概念で分からないところがあれば尋ねれば「理解して,実際に使っている人がいる」というのが,大学院で統計や数学を専攻している1つのメリットかも,,,と改めて思った次第です.

参考

この本とってもいい本です.最近でも見直すレベルです.ちょっと高いですが苦笑

  • Real Analysis

Amazon.co.jp: Real Analysis: Modern Techniques and Their Applications (Pure and Applied Mathematics: A Wiley Series of Texts, Monographs and Tracts) 電子書籍: Gerald B. Folland: 洋書


これは,友達が薦めてくれた本で,僕が測度論をわかった!と思わせてくれた1冊.

  • Real and Complex Analysis

Amazon.co.jp: Real & Complex Analysis: Rudin: 洋書


Wikipediaは偉大です.

測度論 - Wikipedia
冪集合 - Wikipedia
完全加法族 - Wikipedia

p.s.

今年も,アドベントカレンダーが盛り上がっています.特に,leafletは使ってみたいなと思っていたので参考にして何かやってみるつもりです.
qiita.com

次回は

確率密度関数/確率関数,分布関数について書いてみます.明日は,おやすみします.