環境統計学  第8回

2004年6月8日  大塚泰介

0.今回の講義を始めるにあたって

 今回の講義では,それぞれの統計分布の性質について,数理的側面をほとんど明らかにしない。証明のために必要な道具立てが不足しているという理由もあるのだが,むしろ主な理由は「統計の授業で数理的側面に重点を置きすぎると,統計嫌いになる学生が急激に増える」という経験則(?)にある。実は,教える私自身が統計学の数理的側面にあまり強くない。したがって,何事も理由を追及しないと気が済まないタイプの人には物足りない講義になるだろうが,勘弁していただきたい。
 なお,統計学の数理的側面に関心がある人は,
「ゼロから学ぶ統計解析」 小寺平治 著,講談社,2002年,2500円
を参考にされたい。また,もう一歩進んだレベルの参考書として,
「新しい誤差論 実験データ解析法」 吉澤康和著,共立出版,1989年,4725円
を紹介しておく。

1.二項分布の性質

 確率 p で起こる事象が,無作為抽出を n 回繰り返したときに x 回起こる確率は,二項分布に従う。二項分布の確率関数は次の式で表される。

ただしP(x) は確率関数,p は事象の起こる確率,q は事象が起こらない確率 (=1 - p),n は試行回数,x は事象が起こる回数 (x = 1, 2,…, n)である。

 以下,二項分布の確率関数が上式のようになる理由について考えてみる。たとえば 5 回の試行のうち,2 回で確率 0.3 の事象が起こり,残り 3 回では起こらなかったとする。それぞれの試行で事象が起こらない確率は1 - 0.3 = 0.7である。最初の 2 回に事象が連続して起こり,残りは起こらない確率は,それぞれの試行における確率をかけていけば良いので,0.3×0.3×0.7×0.7×0.7 = 0.32×0.73 である。もしここで,5 回のうちどこで起こっても良いから2 回ということになれば,5 回の試行のうち事象が起こる2 回を選ぶ方法は 5C2 通りあるので,確率は 0.32×0.735C2 倍,すなわち5C2×0.32×0.73 = 0.3087となる。この結果について事象が起こる確率 0.3を p,起こらない確率 0.7を q,試行回数の 5 を n,事象が起こった回数 2 を x と一般化すれば,上式の確率関数の通りになる。

 二項検定では,p = 0.5 の二項分布がよく利用されることを第 2 回で説明した。ここでは二項分布に関連した研究計画の例を 1 つ挙げておく。

例題8-1
 珪藻の種組成を評価するときに次の方法をとる;珪藻の入った試料(普通は数万〜数億細胞の珪藻を含む)をよく混ぜ,その一部をとってプレパラートを作成し,顕微鏡下で同定・計数して,各種の割合を相対頻度であらわす。この方法で珪藻の種組成を評価する際に,もとの珪藻試料に1%の割合で含まれていた珪藻の種を1細胞も数えない,つまり見逃す可能性を 5% 未満にするには,珪藻全体で細胞をいくつ以上同定・計数すればよいか。ただしlog10 0.99 = -0.004365,log10 0.05 = -1.301として計算せよ。

 試料に1%含まれる種を平均して1個数えようとすれば,全体で100細胞を数えればよい。しかしその場合,その種を見逃す可能性は,
P(0) = 100C0×0.010×0.99100 = 0.99100 = 0.366
すなわち約37%もある。
 ここからが本題である。全体の1%含まれる種を見逃す率が 5% 未満になる n は,
P(0) = nC0×0.010×0.99n = 0.99n < 0.05
をみたす。そこで不等式両辺の対数をとると,
log10 0.99n = n×log10 0.99 < log10 0.05
log10 0.99 = -0.004365,log10 0.05 = -1.301を代入して,(不等号の向きが逆になることに注意)
n > -1.301 / -0.004365 = 298.1
解答n は整数なので,n ≧299。すなわち,概ね 300 細胞を数えれば,もとの珪藻試料に1%含まれていた種を見逃す確率が 5% 未満になる。

 母集団で平均値,標本分散および標準偏差に相当するものを,それぞれ期待値母分散および標準偏差という。二項分布における期待値,母分散および標準偏差はそれぞれ次の通りである。
期待値:μ= np  母分散:σ2= npq  標準偏差:σ= (npq)1/2

2.母集団における期待値と母分散

 1. の最後で,二項分布における期待値,母分散および標準偏差を示した。これら母集団に関係する値を,確率分布と関連付けて定義しておく必要があるだろう。

 期待値は,全ての x の値について,x の値がそのようになる確率,つまり確率関数で重み付けをして平均したもの(荷重平均という)である。すなわち確率関数を f(x) とすると,


 全てのx の値について確率関数を合計すると 1 になるので,上式のように分母を払うことができる。

 例として,p = 0.3,q = 0.7,n = 5 の二項分布について期待値を計算してみる。
xi 0 1 2 3 4 5
f(xi) 0.16807 0.36015 0.3087 0.1323 0.02835 0.00243 1
xi f(xi) 0 0.36015 0.6174 0.3969 0.1134 0.01215 1.5

するとxi f(xi)の合計として算出された期待値は,μ= 1.5。この値は上記のnp = 5×0.3 = 1.5と一致する。
 前回も述べたとおり,標本から算出された平均は,母集団における期待値の不偏推定値となる。

 母分散は,全てのx について (x -μ)2 を計算し,これを確率関数で荷重平均したものである。すなわち確率関数を f(x) とすると,


問題8-1
 なぜ上式のような変形ができるのか。(x -μ)2 の部分を展開することによって確かめてみよ。

 p = 0.3,q = 0.7,n = 5 の二項分布について,期待値の場合と同様の方法で母分散を計算してみる。
xi 0 1 2 3 4 5
f(xi) 0.16807 0.36015 0.3087 0.1323 0.02835 0.00243 1
xi2 f(xi) 0 0.36015 1.2348 1.1907 0.4536 0.06075 3.3

するとxi2 f(xi)の合計が 3.3 になっているので,σ2 = 3.3 - 1.52 = 1.05。この値は上記の npq = 5×0.3×0.7 = 1.05 と一致する。
 前回にも述べたとおり,標本をもとに計算された不偏分散は,母分散の不偏推定値である。

 母集団における標準偏差は,標本の場合と同じく,分散の平方根として定義される。

3.ポアソン分布

 二項分布の期待値μ = np を固定したままで,n を無限に大きくした場合の分布型が,ポアソン分布である。ポアソン分布は次の確率関数で表される。

ただし P(x) は確率関数,λは期待値(二項分布の np に相当),x は事象が起こる回数 (x = 1, 2,…)である。
ポアソン分布の分布型はλのみによって決まり,その点では np の2つによって決まる二項分布より単純な分布モデルであると言える。

 ポアソン分布の期待値,母分散,標準偏差はそれぞれ次の通りである。
期待値:μ=λ  分 散:σ2 =λ  標準偏差:σ=λ1/2

 ポアソン分布は上記の通り,「二項分布の期待値μ = np を固定したままで,n を無限に大きくした場合」である。これを言いかえれば「たいへん低い確率でランダムに起こる事象が,その事象を拾い上げることがあるほどに多回数の試行の中で何回起こるか」を示す確率分布ということになる。
 ポアソン分布に従った観測例としてよく引合いに出されるのは,プロシアの十個連隊それぞれで1年間に馬に蹴られて死んだ兵隊の数の分布である。当時の軍隊においても馬に蹴られて死ぬというのは稀で,かつ偶発的な事故だったが,各個連隊規模で見れば1年の内には十分起こり得ることだった。これは上記したポアソン分布の条件に合っている。

例題8-2
 ある湖の沖合で,単細胞性のプランクトン A が,1 ml あたり 1 個体の割合で,水中によく混ざった状態で生息していたとする。この湖の沖合から採水してきた水を 1 ml とり,中に含まれる個体数を数えた場合,A の計数結果が 0 個体,1 個体,2 個体,3 個体以上になる確率はそれぞれどれだけか。

解答
 この条件では,計数結果はポアソン分布に従う。そこでλ= 1として,x = 0, 1, 2となる確率をそれぞれ計算すると,
P(0) = e-1・10/0!≒0.368  P(1) = e-1・11/1!≒0.368  P(2) = e-1・12/2!≒0.184
以上から,1 ml 中から0 個体,1 個体,2 個体を計数する確率はそれぞれ 0.368,0.368,0.184である。また,3 個体以上を計数する確率は,1 - (0.368 + 0.368 + 0.184) = 0.080 である。

 この例題で算出された確率は, A が水中で集中分布をしていた場合や,A が群体をつくる種類だった場合には妥当でなくなる。そのような場合,A の生息密度が同じであっても,計測結果が 0 個体や 2 個体以上になる確率がより高くなる。

4.正規分布 -確率分布のイデア-

 二項分布でpを固定したまま試行回数を増やしていくと,ヒストグラムはなめらかな左右対称の釣鐘状になっていく。また,ポアソン分布でλを大きくしていった場合も同様である。いずれもその分布型は,極限において正規分布という分布型に近づく。
 正規分布は二項分布,ポアソン分布とは異なり,連続型の分布なので,確率関数を定義することができない。そこでグラフが囲う面積が1になるように密度関数を定義すると,次のようになる。

ただしf(x) は密度関数,μは期待値,σ2は母分散である。

 正規分布の密度関数の式は一見恐ろしげに見えるが,解釈はそれほど難しくない。まず e の指数部分の分子 -(x -μ)2x =μのときに最大値 0 をとり,期待値 μ から遠ざかるにつれてどんどん小さくなって -∞ に近付いていく。y → -∞ のとき ey → 0 なので, -(x -μ)2 が小さくなっていくと関数全体は 0 に近づいていくことになる。つまりこの部分は,グラフの形が釣鐘型であることを決めている。e の指数部分の分母 2σ2は,期待値μの両側で密度関数が減少していく傾斜の程度,言い換えればグラフの広がり具合を決めている部分である。当然,σ2 が大きいほど傾斜はゆるやかに,広がりは大きくなる。最後に e の前についている 1/ (2π)1/2σであるが,これは単に密度関数のグラフが囲う面積が 1 になるように調整しているだけである。

 あらゆる分布は正規分布に通じるという一種の信念がある。この章の最初に述べたように,二項分布やポアソン分布は,一定の条件下では正規分布にたいへん近い分布をする。また,正規分布に従わない変数であっても,適当な数値変換によって正規分布に近似させることができる場合が多い。さらに,どんな分布をする変数であっても(分散が無限大,または 0 の分布を除く),たくさん集めてきて平均をとれば,その平均値はほぼ正規分布に従うようになる。これを中心極限定理と呼んでいる。
 正規分布に完全に従う母集団というのは,たぶんない。しかし上記の理由から,正規分布こそが確率分布の根本的なモデル,つまりプラトンの言う「イデア(原範型)」である。そして実際の標本が示す分布を正規分布にあてはめることは,標本分布を正規分布というイデアの似像として見ることに他ならない。

 さて,正規分布のうちμ= 0,σ2 = 1の場合について密度関数を考えると,もう少しすっきりした式になる。

 これを標準正規分布と呼んでいる。この標準正規分布は,統計的推測および統計的検定において最も重要な分布型で,活躍の機会も多い。その活躍については次回を括目して待て!

本日のキーワード:二項分布期待値母分散荷重平均ポアソン分布正規分布密度関数中心極限定理標準正規分布