環境統計学  第9回

2003年6月12日  大塚泰介

0.今回の講義を始めるにあたって

 今回の講義では,それぞれの統計分布の性質について,数理的側面をほとんど明らかにしない。証明のために必要な道具立てが不足しているという理由もあるのだが,むしろ主な理由は「統計の授業で数理的側面に重点を置きすぎると,統計嫌いになる学生が急激に増える」という経験則にある*1。実は,教える私自身が統計学の数理的側面にあまり強くない。したがって,何事も理由を追及しないと気が済まないタイプの人には物足りない講義になるだろうが,勘弁していただきたい。
 今回の授業で証明を省いて結果だけを教える内容のいくつかについては,最後の授業で扱うことにする。また,手元の参考書の中で,統計分布の数理を比較的わかりやすく説明していたものを2冊ほど紹介しておく。
小針あき宏 (1973) 確率・統計入門.岩波書店.
吉澤康和 (1989) 新しい誤差論 実験データ解析法.共立出版.

*1:この経験則は,私の経験に基づくものではない。私は大学・大学院を通じて統計の講義を全くとっておらず,統計のまとまった講義をするのも今回が初めてだからである。この経験則が本当に正しいかどうかについては今後の検証を待たねばならないが,本講義を検証の場にするのは危険なのでやめておく。念のため。

1.二項分布の性質

 確率 p で起こる事象が,無作為抽出を n 回繰り返したときにx回起こる確率は,二項分布に従う。二項分布の確率関数は次の式で表される。

ただしP(x) は確率関数,p は事象の起こる確率,q は事象が起こらない確率 (=1 - p),n は試行回数,x は事象が起こる回数 (x = 1, 2,…, n)である。

 以下,2項分布の確率関数が上式のようになる理由について考えてみる。たとえば5回の試行のうち,2回で確率0.3の事象が起こり,残り3回では起こらなかったとする。それぞれの試行で事象が起こらない確率は1 - 0.3 = 0.7である。最初の2回に事象が連続して起こり,残りは起こらない確率は,それぞれの試行における確率をかけていけば良いので,0.3×0.3×0.7×0.7×0.7 = 0.32×0.73である。もしここで,5回のうちどこで起こっても良いから2回ということになれば,5回の試行のうち事象が起こる2回を選ぶ方法は 5C2 通りあるので,確率は 0.32×0.73の 5C2 倍,すなわち5C2×0.32×0.73 = 0.3087となる。この結果について事象が起こる確率 0.3を p,起こらない確率 0.7を q,試行回数の 5 を n,事象が起こった回数 2 を x と一般化すれば,上式の確率関数の通りになる。

 二項検定では,p = 0.5 の二項分布がよく利用されることを第5回で説明した。ここでは2項分布に関連した研究計画の例を1つ挙げておく。

例題14:珪藻の種組成を評価するときに次の方法をとる;珪藻の入った試料(普通は数万〜数億細胞の珪藻を含む)をよく混ぜ,その一部をとってプレパラートを作成し,顕微鏡下で同定・計数して,各種の割合を相対頻度であらわす。この方法で珪藻の種組成を評価する際に,もとの珪藻試料に1%の割合で含まれていた珪藻の種を1細胞も数えない,つまり見逃す可能性を5%以下にするには,珪藻全体で細胞をいくつ以上同定・計数すればよいか。ただしlog10 0.99 = -0.004365,log10 0.05 = -1.301として計算せよ。

 試料に1%含まれる種を平均して1個数えようとすれば,全体で100細胞を数えればよい。しかしその場合,その種を見逃す可能性は,
100C0×0.010×0.99100 = 0.99100 = 0.366
すなわち約37%もある。
ここからが本題である。全体の1%含まれる種を見逃す率が5%以下になる n は,
nC0×0.010×0.99n = 0.99n ≦0.05
をみたす。そこで不等式両辺の対数をとると,
log10 0.99n = n×log10 0.99≦log10 0.05
log10 0.99 = -0.004365,log10 0.05 = -1.301を代入して,(不等号の向きが逆になることに注意)
n ≧-1.301 / -0.004365≒298.1
解答:n は整数なので,n ≧299。すなわち,概ね300細胞を数えれば,もとの珪藻試料に1%含まれていた種を見逃す確率が5%以下になる。

 二項分布の期待値母分散,標準偏差はそれぞれ次の通りである。
期待値:μ= np  母分散:σ2= npq  標準偏差:σ= (npq)1/2


2.母集団における期待値と分散

第1章の最後で,二項分布における期待値,母分散および標準偏差を示した。これらは標本から算出される平均,分散(不偏分散)および標準偏差に対応するものだが,確率分布と絡めて定義しておく必要があるだろう。

期待値は,全ての x の値について,x の値がそのようになる確率,つまり確率関数で重み付けをして平均したもの(荷重平均という)である。すなわち確率関数を f(x) とすると,


 全てのxの値について確率関数を合計すると1になるので,上式のように分母を払うことができる。

例として,上記の,p = 0.3,q = 0.7,n = 5 の二項分布について期待値を計算してみる。
xi 0 1 2 3 4 5
f(xi) 0.16807 0.36015 0.3087 0.1323 0.02835 0.00243 1
xi f(xi) 0 0.36015 0.6174 0.3969 0.1134 0.01215 1.5

するとxi f(xi)の合計として算出された期待値は,μ= 1.5。この値は上記のnp = 5×0.3 = 1.5と一致する。
 前回も述べたとおり,標本から算出された平均は,母集団における期待値の不偏推定値となる。

母分散は,全てのx について (x -μ)2 を計算し,これを確率関数で荷重平均したものである。すなわち確率関数をf(x)とすると,


練習13:なぜ上式のような変形ができるのか。(x -μ)2 の部分を展開することによって確かめてみよ。

上記の,p = 0.2,q = 0.8,n = 5 の二項分布について,期待値の場合と同様の方法で母分散を計算してみる。
xi 0 1 2 3 4 5
f(xi) 0.16807 0.36015 0.3087 0.1323 0.02835 0.00243 1
xi2 f(xi) 0 0.36015 1.2348 1.1907 0.4536 0.06075 3.3

するとxi2 f(xi)の合計が3.3になっているので,σ2 = 3.3 - 1.52 = 1.05。この値は上記のnpq = 5×0.3×0.7 = 1.05と一致する。
 前回にも述べたとおり,標本をもとに計算された不偏分散は,母分散の不偏推定値である。

 母集団における標準偏差は,標本の場合と同じく,分散の平方根として定義される。

3.ポアソン分布

 二項分布の期待値μ = np を固定したままで,n を無限に大きくした場合の分布型が,ポアソン分布である。ポアソン分布は次の確率関数で表される。

ただし P(x) は確率関数,λは期待値(二項分布の np に相当),x は事象が起こる回数 (x = 1, 2,…)である。
ポアソン分布の分布型はλのみによって決まり,その点では np の2つによって決まる二項分布より単純な分布モデルであると言える。

 ポアソン分布の期待値,母分散,標準偏差はそれぞれ次の通りである。
期待値:μ=λ  分 散:σ2 =λ  標準偏差:σ=λ1/2

 ポアソン分布は上記の通り,「二項分布の期待値μ = np を固定したままで,n を無限に大きくした場合」である。これを言いかえれば「たいへん低い確率でランダムに起こる事象が,その事象を拾い上げることがあるほどに多回数の試行の中で何回起こるか」を示す確率分布ということになる。
ポアソン分布に従った観測例としてよく引合いに出されるのは,プロシアの十個連隊それぞれで1年間に馬に蹴られて死んだ兵隊の数の分布である。当時の軍隊においても馬に蹴られて死ぬというのは稀で,かつ偶発的な事故だったが,各個連隊規模で見れば1年の内には十分起こり得ることだった。これは上記したポアソン分布の条件に合っている。

例題15:ある湖の沖合で,単細胞性のプランクトンAが,1 ml あたり1個体の割合で,水中によく混ざった状態で生息していたとする。この湖の沖合から採水してきた水を1 ml とり,中に含まれる個体数を数えた場合,Aの計数結果が0個体,1個体,2個体,3個体以上になる確率はそれぞれどれだけか。

解答:この条件では,計数結果はポアソン分布に従う。そこでλ= 1として,x = 0, 1, 2となる確率をそれぞれ計算すると,
P(0) = e-1・10/0!≒0.368  P(1) = e-1・11/1!≒0.368  P(2) = e-1・12/2!≒0.184
以上から,1 ml 中から0個体,1個体,2個体を計数する確率はそれぞれ0.368, 0.368, 0.184である。また,3個体以上を計数する確率は,1 - (0.368 + 0.368 + 0.184) = 0.080である。

この例題で算出された確率は, Aが水中で集中分布をしていた場合や,Aが群体をつくる種類だった場合には妥当でなくなる。そのような場合,Aの生息密度が同じであっても,計測結果が0個体や2個体以上になる確率がより高くなる。

4.正規分布 -確率分布のイデア-

 二項分布でpを固定したまま試行回数を増やしていくと,ヒストグラムはなめらかな左右対称の釣鐘状になっていく。また,ポアソン分布でλを大きくしていった場合も同様である。いずれもその分布型は,極限において正規分布という分布型に近づく。
 正規分布は二項分布,ポアソン分布とは異なり,連続型の分布なので,確率関数を定義することができない。そこでグラフが囲う面積が1になるように密度関数を定義すると,次のようになる。

ただしf(x) は密度関数,μは期待値,σ2は母分散である。

 正規分布の密度関数の式は一見恐ろしげに見えるが,解釈はそれほど難しくない。
 まずeの指数部分の分子に -(x -μ)2 があることは,x =μのときに最大値 0 をとり,それ以上あるいはそれ以下の場合には,期待値μから遠ざかるにつれて0に近づいていくことを意味する。つまり,この部分がグラフの形が釣鐘型であることを決めている。
 eの指数部分の分母2σ2は,期待値μの両側で密度関数が減少していく傾斜の程度,逆に言えばグラフの広がり具合を決めている部分である。当然,σ2 が大きいほど傾斜はゆるやかに,広がりは大きくなる。
最後にeの前についている 1/ (2π)1/2 σであるが,これは単に密度関数のグラフが囲う面積が1になるように調整しているだけである。

 あらゆる分布は正規分布に通じるという一種の信念がある。この章の最初に述べたように,二項分布やポアソン分布は,一定の条件下では正規分布にたいへん近い分布をする。また,正規分布に従わない変数であっても,適当な数値変換によって正規分布に近似させることができる場合が多い。さらに,どんな分布をする変数であっても*2,たくさん集めてきて平均をとれば,その平均値はほぼ正規分布に従うようになる。これを中心極限定理と呼んでいる*2
*2:分散が無限大,または0の分布を除く。
 正規分布に完全に従う母集団というのは,たぶんない。しかし上記の理由から,正規分布こそが確率分布の根本的なモデル,つまりプラトンの言う「イデア(原範型)」である。そして実際の標本が示す分布を正規分布にあてはめることは,標本分布を正規分布というイデアの似像として見ることに他ならない。

 さて,正規分布のうちμ= 0,σ2 = 1の場合について密度関数を考えると,もう少しすっきりしたものになる。

これを標準正規分布と呼んでいる。この標準正規分布は,統計的推測および統計的検定において最も重要な分布型で,活躍の機会も多い。その活躍については次回を括目して待て!

本日のキーワード:二項分布,期待値,母分散,荷重平均,ポアソン分布,正規分布,密度関数,中心極限定理,標準正規分布
第10回へ→
←トップ頁へ