環境統計学  第4回

2003年5月8日 大塚泰介

1.二項分布と二項検定 (教科書p. 55〜59, 74〜78)

 サイコロを投げたとき、偶数の目が出る確率は、サイコロが正しく作られており、投げる人が特殊な工夫をしていなければ、1/2になるはずである。したがってサイコロを10回投げたとき、偶数の目が出る確率は5回程度になることが多い。しかし実際には、0回〜10回までの全ての可能性がある。
 それぞれが起こる確率を計算してみる。サイコロを10回、順に投げていったとき、それぞれの回について偶数と奇数が1/2ずつの確率で出るとすると、偶数/奇数の目の出かた(順列)は210 = 1024 通りあり、その全てが同じ確率で起こることになる。そのうち、偶数の目が1回も出ない組み合わせは1通りしかないので、その確率は、(1/2)10 = 1/1024 となる。一方、偶数の目が1回だけ出る組み合わせは、偶数が出るのが1回目、2回目、…10回目、と10通りあるので、その確率は10C1・(1/2)10 = 10/1024。同様に2回の場合を考えると、その2回がどこで出るかの組み合わせが10・9/2 = 45通りあるので、確率は10C2・(1/2)10 = 45/1024。以下同様に考えると、
3回:10C3・(1/2)10 = 120/1024  4回:10C4・(1/2)10 = 210/1024  5回:10C5・(1/2)10 = 252/1024  6回:10C6・(1/2)10= 210/1024
7回:10C7・(1/2)10 = 120/1024  8回:10C8・(1/2)10 = 45/1024  9回:10C9・(1/2)10 = 10/1024  10回:(1/2)10 = 1/1024  となる。

次に、偶数の目がx回以下しか出ない確率、つまり累積確率を計算してみると
0回:1/1024 = 0.001  1回:(1 + 10)/1024 = 0.011  2回:(1 + 11 + 45)/1024 = 0.055
(以下計算省略) 3回:0.172  4回:0.377  5回:0.623  6回:0.828  7回:0.945  8回:0.989  9回:0.999  10回:1.000

 この計算結果を見ると、偶数の目が出る回数は、0回〜10回まで全ての可能性があるにせよ、0回、あるいは10回ということはたいへん稀であるといえる。3回から7回までの範囲に収まる確率は約89.1%、2回から8回までの範囲に収まる確率は約97.8%となる。

 それでは、危険率5%以下で「このサイコロはいかさまだ。検めさせてもらうぜ」と言えるのは、偶数の目が出た回数が何回以上、あるいは何回以下の場合であろうか。
偶数の目が出る回数が2回および8回の場合には、いかさまでなかったとしてもそれ以上の偏りが生じる確率が、0.001 + 0.010 + 0.055 + 0.055 + 0.010 + 0.001 = 0.109*1、すなわちP = 0.109もあるので、「いかさまである」と言うのはやや危険である。1回および9回であれば、それ以上の偏りが生じる確率は0.001 + 0.010 + 0.010 + 0.001 = 0.022、すなわちP = 0.022なので、危険率5%以下でいかさまであると言ってよい*2
*1:丸め誤差により、両辺は一致していない。
*2:実際に相手のいかさまを告発するかどうかは、いかさまを告発することで得られる利益と、いかさまでなかった場合に負うことになるリスクとのバランスによって決めるべきである(状況によっては命を落とすことになるから)。したがってこの場合、危険率5%は絶対的な基準にならない。

 以上の例で、サイコロの偶数の目が出る確率が示した確率分布を二項分布という。そして、ここで用いたいかさまの判定方法を二項検定という*3
*3:二項分布には、事象が起こる確率が1/2以外のものもある。例えば、「サイコロを10回投げたときに1の目が出る回数の分布」も、事象が起こる確率が1/6の二項分布に従う。しかし二項検定に利用されることが少ないため、ここでは確率関数のグラフを提示するに留める。

 なお、標本数が多く、二項分布の確率を直接計算することが困難な場合には、以下の判別条件を用いる。

k:事象が起こった回数 N:試行回数)
この判別条件に従う場合、帰無仮説、すなわち事象が起こる確率が1/2であるという仮説が棄却される (P<0.05)。
この計算に従えば、10回サイコロを振って偶数の目が出る回数が1回だった場合、
(|2k - N| - 1)/N1/2 =(|2・1 - 10| - 1)/101/2 = 2.21
となり、帰無仮説が棄却される(P<0.05)が、偶数の目が出る回数が2回だった場合には、
(|2k - N| - 1)/N1/2 =(|2・2 - 10| - 1)/101/2 = 1.58
となり、帰無仮説は棄却されない(P >0.05)。

注意:実は、この判別条件も標準正規分布近似に基づいている。N の値が概ね 25 よりも小さい場合には、この近似は誤差を生じやすいので、面倒でも確率を直接計算した方が良い。

例題6:井口・内田 (1992) は、体長がほぼ同じ(体長差2%以下)海産と琵琶湖産のアユを同じ水槽内に入れて対戦をさせ、どちらが優位になるかを判定した。すると、39回の対戦のうち、琵琶湖産が優位になったのが21回、引き分けになったのが15回、海産が優位になったのが3回であった。この結果から、体長が同程度であれば、琵琶湖産アユの方が海産アユよりも対戦で優位になる傾向があったといえるか。

まず、対立仮説を設定する。
H1 :同サイズの琵琶湖産アユ対海産アユの対戦では、どちらかが優位になる傾向がある
H0 :同サイズの琵琶湖産アユ対海産アユの対戦では、どちらが優位になる傾向もない(帰無仮説)
H1 で、優位になるのが「琵琶湖産アユ」でなく「どちらか」としたのは、実験前にはどちらが優位になるか分からないからである。このような対立仮説は本来、実験や調査の前に立てられなければならないので、実験や調査の後に初めて推定された内容を仮説に加えてはならないのである。

 この実験結果では引き分けが多い。アユは付着藻類を餌としており、餌場の周辺になわばりをつくって侵入者を排除する。しかしなわばりを防衛する行動には個体差があり、なわばりを十分に確保できる状況でもなわばりを作らず、群れて暮らす個体もある。したがって、個体間で闘争にならない、あるいは闘争があっても決着がつくところまで続かないということもしばしば起こってくるのである。
 ここでは、対戦での優劣を問題にしているので、引き分けはなかったものとして考える。つまり、琵琶湖産が優位になった21回と、海産が優位になった3回の間に有意差があるかを検討すればよい。
 もし琵琶湖産と海産の間で対戦の優劣に傾向がないとすれば、優劣が決した24回のうち、海産のものが優位になることが3回以下になる確率は、次の通りである。
0回:(1/2)24 = 0.00000  1回:24C1・(1/2)24 = 0.00000  2回:24C2・(1/2)24 = 0.00002  3回:24C3・(1/2)24 = 0.00012
ただし、同様の偏りとして、海産のものが優位になることが21回以上になる確率も考えなければならない。
24回: (1/2)24 = 0.00000  23回:24C23・(1/2)24 = 0.00000  22回:24C22・(1/2)24 = 0.00002  21回:24C21・(1/2)24 = 0.00012
これらを全て合わせても、確率はおよそ0.0003、つまり約0.03%に過ぎない。したがって帰無仮説はP = 0.0003で棄却され、琵琶湖産アユが海産アユより優位になる傾向があることが示された。

練習5:上の例題を、近似式による判定条件「(|2k - N| - 1)/N1/2 > 1.96」を用いて検定してみよ。ただし241/2 = 4.90である。

練習6:西村 (1987) は、1974年8月から1977年6月の間に、円山川中流域の加都付近でヒゲナガカワトビケラの羽化直前の蛹を49回にわたり採集した。採集された蛹のうち、雌が168個体、雄が158個体だった。採集がランダム・サンプリングだったとすれば、調査地点周辺に生息していたヒゲナガカワトビケラの蛹には、雌雄の比に偏りがあったといえるか。ただし3261/2= 18.06である。

2.符号検定(教科書p. 126〜127)

 符号検定は,対応した2組の標本の大小関係を検定する方法で,計算方法は二項検定と全く同じである。

例題7:NK細胞は、体内で常につくりだされる癌細胞を早期発見し攻撃することで癌の発病を防いでいる。西田・大西 (2001) は、被験者26人に落語を聞かせ、その直前30分以内と直後30分以内にNK細胞活性(相対値%)を測定した。以下はその結果である。
71 70 68 67 66 66 65 61 60 60 59 59 58 58 57 50 50 50 49 47 42 42 40 38 31 29
69 69 71 63 71 69 70 58 65 56 64 55 70 69 56 67 57 49 46 51 52 46 46 46 36 32

この結果から、落語を聞いた後にNK細胞の活性が上昇する傾向があったと言えるか。

まず、対立仮説を設定する。
H1 :落語を聞いた後にNK細胞の活性が上昇または下降する傾向がある。
H0 :落語を聞いた後に生じるNK細胞の活性変化に傾向はない(帰無仮説)
 やはり、実験計画段階での仮説設定なので、「上昇する」とせず「上昇または下降する」傾向があるとした。また、帰無仮説はこれに対する否定なので「変化しない」ではなく「傾向はない」である。

この場合にも、NK細胞活性が増加した被験者に+、減少した被験者に-の符号を与え、これに対して二項検定を適用することができる。それぞれの被験者に与えられる符号は、
71 70 68 67 66 66 65 61 60 60 59 59 58 58 57 50 50 50 49 47 42 42 40 38 31 29
69 69 71 63 71 69 70 58 65 56 64 55 70 69 56 67 57 49 46 51 52 46 46 46 36 32
符号 - - + - + + + - + - + - + + - + + - - + + + + + + +

すなわち、+が17人、−が9人である。N >25 なので、判別条件
(|2k - N| - 1)/N1/2 > 1.96
を適用すると、
(|2・17 - 26| - 1)/ 261/2 = 1.37
なので、条件にあてはまらない。
 したがって、落語を聞いた後にNK細胞の活性が上昇する傾向があるとは言えない (P > 0.05)。

 このように、1対1で対応する二群のデータの大小関係を符号化し、この符号に対して二項検定を行う方法を「符号検定」という。

練習7:例題のデータのうち、落語を聞くことによって「笑いを強く実感した」と判定された被験者13人のみについて見ると、NK細胞の活性変化は以下の通りになった。
67 60 60 59 58 58 47 42 42 40 38 31 29
63 65 56 64 70 69 51 52 46 46 46 36 32

以上の結果から、落語を聞いて笑いを強く実感した後に、NK細胞の活性が上昇する傾向があったと言えるか。ただし (1/2)13 = 8192である。

本日のキーワード:累積確率、二項分布、二項検定、確率関数、符号検定
第5回へ→
←トップ頁へ