環境統計学  第12回

2004年7月13日  大塚泰介

1.2×2分割表に対する独立性の検定 -χ2検定の応用其の弐- 

 最後の講義となる今回は,例題から入る。少し季節遅れではあるが,ゲンジボタルに関する例題を用意した。
 昆虫には,幼虫時代の脱皮回数が決まっているものと,そうでないものがある。そして脱皮の回数が決まっているとされてきた種の中にも,脱皮回数が異なる個体が含まれていることがわかってきた。例えば,ここで取り上げるゲンジボタルは一般に,6 回脱皮をして蛹になる 6 齢型であるが,7 回脱皮をして蛹になる 7 齢型個体もいる。
 昆虫では雌雄間で,大きさや羽化の時期が異なるものが少なくない。ゲンジボタルでは雌の方がやや大きい傾向があり,また羽化の時期も雌が僅かに遅れる傾向がある。このような傾向に,雌雄での脱皮回数の違いが影響を及ぼしいている可能性がある。そこで,ゲンジボタルの雌雄で 6 齢型と 7 齢型の割合に違いがあるかどうかを調べてみたのが,以下の例題である。

例題12-1
 遊馬 (1993) は,多くのゲンジボタルを卵から成虫になるまで飼育し,各個体が蛹になるまでの脱皮回数を調べた。右の表は飼育された個体のうち,6 齢型と 7 齢型であった個体数を,雌雄別にまとめたものである。


6齢型 216 125 341
7齢型 12 46 58
228 171 399


 この飼育個体が,ゲンジボタル個体群の中からランダムに抽出されたと仮定した場合,ゲンジボタルの雌雄間で 7 齢になるものの比率が違うと言えるか。

 上表のように,表の縦方向に1つの類別変数(上表では♂/♀),横方向にもう1つの類別変数(上表では 6 齢型/7 齢型)をとり,それぞれが交差するセルに該当するものの度数(上表では水田の数)を示した表を分割表という。上表のようにそれぞれの類別変数が 2 つの類別からなる場合を 2×2 分割表という。当然,それぞれの類別変数が2つ以上の場合もある。横方向 (row) が R 行,縦方向 (column) が C 列の分割表を R×C 分割表(またはk×l分割表)という。

 この例題では,2 つの類別変数の相互間に連関があるか,あるいは互いに独立であるかが問題になっている。これを検定するいくつかの方法を総称して独立性の検定という。独立性の検定にも χ2 検定を用いることができる。

 まず,対立仮説を設定する。
H1:ゲンジボタルの雌雄間で,7 齢型の占める比率に違いがある。
H0:ゲンジボタルの雌雄間で,7 齢型の占める比率に違いがない。

X2 統計量

をχ2 分布に近似して検定する。適合度の検定の際には「理論値」になっていたところが「期待値」に変わっているが,これは母集団における比率を理論的に決定したのではなく,標本から推定しているからである。ただしこの「期待値」は、以前に扱った母集団における平均値とは意味が異なるので注意が必要である。

 なお X2 の値は,7 齢型の占める比率が♀の方で多い場合にも,♂の方で多い場合にも,同様に大きくなる。したがって片側検定を行えばよい。

 さて,今回の場合,期待値はどのように求めればよいであろうか。帰無仮説 H0 で,雌雄ともに 7 齢型の比率が同じであるとしている。そこで,雌雄全体を含めて計算した 7 齢型の比率を,雌雄それぞれに均等に割り振ってやった場合を考える。すると,
雌雄込みにした場合の 7 齢型の比率:58 / 399 = 0.145
7齢型♂数の期待値:228×58 / 399 = 33.1
7齢型♀数の期待値:171×58 / 399 = 24.9

同様に6齢型のものについても計算して,表にまとめると次のようになる。

6齢型 228×341/399 = 194.9 171×341/399 = 146.1 341
7齢型 228×58/399 = 33.1 171×58/399 = 24.9 58
228 171 399

これをもとに X2 統計量(小数点第1位まで)を計算すると,

 
 X2 を自由度いくつのχ2 分布と比較すればよいだろうか。これを知るためにはまず,それぞれの期待値がどのように算出されたかを考えなければならない。4 つの期待値を計算する際に,行ごとの計および列ごとの計を全て使っている。つまり,周辺確率を固定しないと期待値が算出できないのである。周辺確率を固定した場合,1 つのセルの値が決まると,残り 3 つのセルの値も全て決まってしまう。したがって独立に変動しうる値の個数,すなわち自由度は 1 であり,自由度ν= 1 のχ2 分布が比較対象となる。

 自由度ν= 1 のχ2 分布の 95% 点を数表から読み取ると,χ21(0.95) = 3.84
算出されたX2 はこれよりもずっと大きいので,帰無仮説を棄却する。

解答:ゲンジボタルの雌雄間で 7 齢型の占める比率に違いがあり,♀の方が 7 齢型の比率が高い有意な傾向がある (P < 0.05)。

χ2 分布の累積密度分布の表を再掲しておく。

ν
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 20 30 40 50
確率
0.95
3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.68 25.00 31.41 43.77 55.76 67.50
0.99
6.63 9.21 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.73 26.22 27.69 29.14 30.58 37.57 50.89 63.69 76.15

 なお,下の2×2分割表における X2 は,次の式で算出することができる。

類別変数I

類別変数II
A B A+B
C D C+D

A+C B+D A+B+C+D = N


 X2 の平方根を -1から1の間に基準化したものをφ係数(ファイ係数)といい,次の式で計算される。

φ係数は,2つの類別変数どうしの連関を示す指標値として用いられる。1に近いときには正の連関あり,0に近いときには連関なし,-1に近いときには負の連関あり,と判定される。
 なお,X2 が先に算出されている場合には,φ2 = X2/ N の関係を用いてφを算出するとよい(ただし符号に注意)。例題の表についてφ係数を算出すると,φ= + (36.7/399)1/2= 0.30となる。

問題10-1
 Grygier et al. (2002) は,琵琶湖博物館フィールドレポーターらの協力を得て,滋賀県内の水田における鰓脚類(カイエビ類,カブトエビ類,ホウネンエビ)の分布を調べた。カイエビ類の 2 種,カイエビとトゲカイエビについて,それぞれの種が発見された水田の数をまとめたところ,次のようになった。

カイエビ

存在 不在
トゲカイエビ
存在 8 203 211
不在 36 113 149

44 316 360
 連関の指標としてφ係数を算出せよ。また,カイエビとトゲカイエビの両種とも、生息する場合には必ず発見されたとすれば,両種に共存あるいは非共存の傾向があると言えるだろうか。

2.R×C 分割表に対する独立性の検定 -χ2検定の応用其の参-

 R×C 分割表についても,2×2分割表の場合と同様に,χ2 検定による独立性の検定を行うことができる。

例題10-2
 大塚・辻 (1997) は,京都市の七瀬川の礫上から1本の珪藻群集試料を採集した。これをよく混ぜ,3つの試験管にとりわけ,それぞれを硫酸処理・洗浄して珪藻を殻だけにして,それぞれから永久プレパラートを作成した。それぞれの永久プレパラートに含まれる珪藻のうち 100 殻ずつを同定・計数したところ,それぞれの種組成は表の通りになった。計数された種組成のプレパラートごとの違いは,偶然誤差の範囲内であると言えるか。

プレパラート I II III
Nitzschia palea 41 37 34 112
Mayamaea atomus 25 26 27 78
Eolimna subminuscula 23 15 16 54
Surirella angusta 3 9 10 22
他の種 8 13 13 34
100 100 100 300

 まず,対立仮説を設定する。この場合には,母集団の違いを検定するのではなく,同じ母集団から得られた標本間の誤差構造を問題にしているので,次の対立仮説になる。

H1:種組成のプレパラートごとの違いは偶然誤差の範囲を超えている。
H0:種組成のプレパラートごとの違いは偶然誤差の範囲内である。

 続いて各セルの期待度数を計算する。たとえば Mayamaea atomus の場合,全体で300殻が計数されたうちの 78 殻を占めているので,理論比は 78/300 = 0.26。これを各プレパラートにあてはめると,いずれも100殻ずつが計数されているので,期待値は 100×78/300 = 26となる。他も同様に計算すると,右表の通りになる。

プレパラート I II III
Nitzschia palea 112/3 112/3 112/3 112
Mayamaea atomus 26 26 26 78
Eolimna subminuscula 18 18 18 54
Surirella angusta 22/3 22/3 22/3 22
他の種 34/3 34/3 34/3 34
100 100 100 300


X2 統計量を計算する。式が長くなるので,各項を表で示す。
プレパラート I II III
Nitzschia palea (41-112/3)2/(112/3)=0.36 (37-112/3)2/(112/3)=0.00 (34-112/3)2/(112/3)=0.30 0.66
Mayamaea atomus (25-26)2/26=0.04 (26-26)2/26=0.00 (27-26)2/26=0.04 0.08
Eolimna subminuscula (23-18)2/18=1.39 (15-18)2/18=0.50 (16-18)2/18=0.22 2.11
Surirella angusta (3-22/3)2/(22/3)=2.56 (9-22/3)2/(22/3)=0.38 (10-22/3)2/(22/3)=0.97 3.91
他の種 (8-34/3)2/(34/3)=0.98 (13-34/3)2/(34/3)=0.25 (13-34/3)2/(34/3)=0.25 1.48
X2 = 8.2

 最後に,計算された X2 とχ2 分布の 95% 点を比較する。R×C 表の場合,比較対象となるχ2 分布の自由度は (R - 1)(C - 1) である。今回は R = 5,C = 3 なので,自由度は (5 - 1)(3 - 1) = 8。よって 95% 点は,χ28(0.95) = 15.51。算出されたX2 はこれよりもずっと小さいので,帰無仮説は棄却されない。

解答:種組成のプレパラートごとの違いは偶然誤差の範囲内である (P > 0.05)。すなわち,ランダム・サンプリングができていると見ても誤りとは言えない。
 
R×C 分割表に対するχ2 検定をマニュアル化しておく。
なお,それぞれの類別変数につけられた数字は単なる番号で,量的な意味はない。


類別変数T



1 2 ..... j ..... C .....
類別変数U
1 x11 x12 ..... x1j ..... x1C n1
2 x21 x22 ..... x2j ..... x2C n2
..... ..... ..... ..... ..... ..... ..... .....
i xi1 xi2 ..... xij ..... xiC ni
..... ..... ..... ..... ..... ..... ..... .....
R xR1 xR2 ..... xRj ..... xRC nR

T1 T2 ..... Tj ..... TC N (総計)

I.対立仮説を立てる。
H1 :2つの類別変数の間に連関がある。
H0 :2つの類別変数は互いに独立である。

II.それぞれのセルに対する期待値を計算する。xij に対応する期待値は,

である。

III.
を計算する。

IV.算出されたX2 統計量を,自由度ν= (R - 1)(C - 1) のχ2 分布の 95% 点と比較する。X2 統計量の方が大きければ,危険率 5%以下で帰無仮説を棄却する。

3.独立性の検定を行う際に注意しなければならないこと

 分割表に対する独立性の検定の用途は,意外に限られている。以下,独立性の検定が使えそうで使えない,あるいは有効性が低い場合を列挙してみる。

I. データが実測された個数でない場合
 各セルに含まれている数値が実測された個数でない場合,例えば単位当たり個数や比率として表されている場合には,χ2 検定は使えない。X2 統計量は各セルの値の比率だけでは決まらず,実測された個数の合計に左右される値だからである。
 なお,φ係数(φ2 = X2/ N)は各セルの値の比率だけで決まるので,データが実測された個数でなくても算出する意味がある。

II. ランダム・サンプリングが仮定できず,かつ変数どうしに連関がある可能性がある場合
 χ2 検定による独立性の検定で有意差が出た場合,@変数どうしに連関があったか,Aサンプリングで生じた誤差が偶然誤差を上回っていたかのいずれかである。問題なのはその両方の可能性がある場合で,どちらが有意差を生じた原因であったかを事後的に明らかにすることはできない。したがって@Aのいずれかの可能性が予め排除できない場合には,有意差の意味を解釈することは難しい。
 なお,1つの標本の内部における2つの変量の連関性(例えば問題10-1 の,カイエビとヒメカイエビの共存/非共存)を問題にする場合には,サンプリングが多少ランダムでなくても誤差構造にあまり影響を及ぼさないことが多い。このような場合には,よほど偏ったサンプリングをしていない限り,有意差が検出されたら変数どうしに連関があったと判断してよい。これに対して,得られたデータから母集団における平均値や比率を推測する場合(問題10-1 の例でいえば,滋賀県でカイエビが生息する水田の比率をデータから推測する)には,ランダム・サンプリングの制約ははるかに厳しくなる。

III. いずれかのセルの期待値が小さい場合
 期待値が小さくなるにつれて,X2 の分布はχ2 分布に合わなくなってくる。そのため,期待値が 1 より小さいセルが 1 つでもある場合,あるいは期待値が 5 より小さいセルが 2 割以上ある場合には,χ2 検定を行うべきではないとされている。こうした場合には,期待値の小さいセルどうしを結合して検定する必要が生じてくる。しかしその場合にも,セルをどのように結合するかの基準が恣意的であってはならない。

IV. いずれかの類別変数に順位がつけられる場合
 2×C 分割表で,C個の変数に順位がつけられる場合には,Mann-WhitneyのU検定を適用することができる。そしてその場合,中央値の違いに対する検出力はχ2 検定より U 検定の方が高い。ただし中央値があまり違わない場合で,分布パターンの違いを問題にしたい場合には,χ2 検定が有効になる。同様に,R×C 分割表で C 個の変数に順位がつけられる場合には「Kruskal-Wallisの検定」(本講義では扱わない)が,R×C 分割表で両方の変数に順位がつけられる場合には「順位相関係数の検定」(これも本講義では扱わない)が,それぞれ適用できる。

V. R×C 分割表の連関の構造を問題にしたい場合
 例えば表の縦方向にR 種の生物種,横方向にC 個の群集試料が並んでいる種組成の表があったとする。このような場合,生物の集中分布などによりランダム・サンプリングが期待できない場合が多い。また,ランダム・サンプリングが仮定でき,かつ有意差が検出された場合でも,「種組成が試料間で異なる」という結論が出てくるだけである。
 試料間での種組成の違いについて研究する場合には,「主成分分析」「クラスター分析」(いずれも本講義では扱わない)などの多変量解析手法により,種組成の違いのパターンを図示する方が有意義である。

本日のキーワード:度数分割表2×2 分割表R×C 分割表 = k×l分割表連関独立独立性の検定φ係数