環境統計学 第6回

2003年5月22日  大塚泰介

1.Fisherの正確確率検定(教科書p. 81〜83)

例題10: Grygier et al. (2002) は,琵琶湖博物館フィールドレポーターらの協力を得て,滋賀県内の水田における鰓脚類(カイエビ類,カブトエビ類,ホウネンエビ)の分布を調べた。カイエビ類の2種,カイエビとトゲカイエビについて,それぞれの種が発見された水田の数をまとめたところ,次のようになった。(実際には300以上の水田で調査が行われたが,例題として適当なものにするため20水田のみを再抽出した)

トゲカイエビ
存在 不在
カイエビ 存在 1 12 13
不在 4 3 7

5 15 20

調査された水田は県内からランダムに選ばれ,カイエビとトゲカイエビの両種とも,生息する場合には必ず発見されたとする。両種に共存あるいは非共存の傾向があると言えるだろうか。

 上表のように,表の縦方向に1つの類別変数(上表ではカイエビの存在/不在),横方向にもう1つの類別変数(上表ではトゲカイエビの存在/不在)をとり,それぞれが交差するセルに該当するものの度数(上表では水田の数)を示した表を分割表という。上表のようにそれぞれの類別変数が2つの類別からなる場合を2×2分割表という。当然,それぞれの類別変数が2つ以上の場合もある。横方向が2行,縦方向(column)がC列の場合には2×C分割表(または2×l分割表)という。また横方向(row)がR行,縦方向がC列の場合にはR×C分割表(またはk×l分割表)という。
このような分割表では,2つの類別変数の相互間に連関があるか,あるいは互いに独立であるかが問題になることが多い。この問題を2×2分割表について検定する方法の1つがFisherの正確確率検定である*1
*1:より一般的な方法としてχ2 検定があるが,方法を理解するために確率分布に関する知識が必要なため,後に扱う。

検定の考え方:
 まず,対立仮説を用意する。
H1:滋賀県内の水田では,カイエビとトゲカイエビには共存あるいは非共存の傾向がある
H0:滋賀県内の水田では,カイエビとトゲカイエビは互いに独立に生息する(帰無仮説)
 次に分割表の各行,各列の合計を計算する。ここで,カイエビおよびトゲカイエビが生息する滋賀県内の水田の割合が,それぞれこの調査結果と同じ13/20,5/20だったとする。もし両種が互いに独立に生息するとすれば,カイエビとトゲカイエビが共存する確率は,13/20×5/20 = 0.1625(独立事象の確率の積)。したがって調査された20水田のうち,カイエビとトゲカイエビが共存する水田数の期待値は,13/20×5/20×20 = 3.25。他の3つのセルについても同様に期待値を計算すると,次表のようになる。


トゲカイエビ

存在 不在
カイエビ 存在 3.25 9.75 13
不在 1.75 5.25 7

5 15 20

 2つの表を比較すると,実際の調査結果では,両者が共存する水田,および両者とも不在の水田が,期待値よりも少ないことがわかる。しかしこれは単なる偶然の範囲かもしれない。

そこで,カイエビおよびトゲカイエビが出現した水田の割合が,それぞれ13/20,5/20であることを固定して考えた場合,カイエビの存在とトゲカイエビの存在が互いに独立だとすれば,共存する水田がここまで少なくなる可能性がどの程度あるか,を計算してみる。

 20水田のうち13水田でカイエビが発見される場合,発見される水田の組み合わせとして考えられるのは,20C13 = 20!/(13!・7!) 通り。また20水田のうち5水田でトゲカイエビが発見される場合,発見される水田の組み合わせとして考えられるのは,20C5 = 20!/(5!・15!) 通り。したがって,行および列の計が表と同じになる組み合わせ数は,20C13×20C5 = 20!・20!/(13!・7!・5!・15!)

 次に,両種が共存する水田が1つしかない組み合わせ数を考える。行および列の合計を予め固定しているので,両種が共存する水田数1を固定すると,他の3つのセルの値もこれ以上動かしようがない。そこで,まずカイエビの存在/不在で水田を分け,続いてそれぞれをトゲカイエビの存在/不在で分ける方法を考える。
まずカイエビの存在/不在で20の水田を13と7に分ける場合に考えられる組み合わせは,20C13 = 20!/(13!・7!) 通り。続いてそれぞれをトゲカイエビの存在/不在で1と12,4と3に分ける場合に考えられる組み合わせは,それぞれ13C1 = 13!/(1!・12!) 通り,7C4 = 7!/(4!・3!) 通り。
したがって両種が共存する水田が1つしかない組み合わせ数は,
20C13×13C1×7C4 = 20!・13!・7!/(13!・7!・1!・12!・4!・3!)

以上の計算結果から,両種が共存する水田が1つしかない確率は,
20C13×13C1×7C4 / (20C13×20C5) = 13C1×7C4 / 20C5 = 13!・7!・5!・15! / (20!・1!・12!・4!・3!) ≓ 0.0293

同様にして,もっと極端な例,すなわち両種が共存する水田が1つもない場合についても考えなければならない。行および列の合計を固定しているので,そのようになるのは下表の場合だけである。

トゲカイエビ

存在 不在
カイエビ 存在 0 13 13
不在 5 2 7

5 15 20

両種が共存する水田が1つのときと同様に確率を計算すると,
行および列の合計が固定された場合の組み合わせ数:20C13×20C5 = 20!・20!/(13!・7!・5!・15!)
表のようになる組み合わせ数:20C13×13C0×7C5 = 20!・13!・7!/(13!・7!・0!・13!・5!・2!)
両種が共存する水田が1つもない確率:
20C13×13C0×7C5 / (20C13×20C5) = 13C0×7C5 / 20C5 = 13!・7!・5!・15! / (20!・0!・13!・5!・2!) ≓ 0.0014

 したがって,両種が共存する水田が1つ以下になる確率は,P = 0.0293 + 0.0014 = 0.0307

 よって,両種には危険率P≓0.03 で非共存の傾向がある,と結論したいところだが…。例によって,調査前の段階では共存の傾向があるか,非共存の傾向があるかは不明だったのである。そこで,共存の方向への偏りも同時に評価しなければならない。しかし困ったことに,この場合には「両種が共存する水田が1つ以下しかない」のと同様の,反対側への偏りというのを定義できないのである。そこで危険率を2倍にして5%と比較する。すると,
P = (0.0293 + 0.0014)×2 = 0.0614
となり,危険率5%を基準とすれば有意差が見られなかったことになる。

結論:カイエビとトゲカイエビには,互いに非共存の傾向があるかもしれない。しかし20水田のデータからは有意な傾向が検出されなかった (P > 0.05) ため,検証のためにはより詳細な調査が必要である*2。

*2:実際に,調査された全数について同様の分割表を作成し,χ2 検定で検定したところ,カイエビとトゲカイエビの間には有意な非共存の傾向が見られた (P < 0.05)。これについては第13回で扱う。

 ここまでで用いたFisherの正確確率検定をマニュアル化すると次のようになる。

I. 対立仮説をたてる
H1:2つの類別変数は互いに連関をもつ
H0:2つの類別変数は互いに独立である(帰無仮説)

II. 2×2分割表をつくり,行ごとおよび列ごとの合計を算出する。


類別変数I

-
類別変数II A C A+B
- B D C+D

A+C B+D A+B+C+D =N

III. 行および列の合計を固定した場合に,表のようになる確率がどれだけかを計算する。
組み合わせの総数は
NCA+B×NCA+C = N!・N!/{(A+B)!・(C+D)!・(A+C)!・(B+D)!}
そのうち,表のようになる組み合わせ数は
NCA+C×A+CCA×B+DCB = N!/{(A+B)!・(C+D)!・A!・B!・C!・D!}
したがって,表のようになる確率は
NCA+C×A+CCA×B+DCB / (NCA+B×NCA+C)
= A+CCA×B+DCB / NCA+B
={(A+B)!・(C+D)!・(A+C)!・(B+D)!}/(N!・A!・B!・C!・D!)→この値を計算する。

IV. 行および列の合計を固定した上で,実際の結果よりもさらに偏った結果を生じる場合の全てについて2×2分割表を作成し,そのようになる確率を計算する。

V. 2および3で計算された全ての確率を合計し,2倍したものが危険率Pとなる。

 階乗の計算は数が大きくなると困難なので,表計算ソフトなどを用いるとよい。Fisherの正確確率検定のための数表もあるらしいが,表の構造が複雑になることもあって,一般にはあまり出まわっていない。
 標本が十分に大きい場合には,次の判別式を満たす場合に有意な連関があるとしてよい。

 ただし小標本に対してこの判別式を用いると,判定結果が直接計算と大きく異なる場合がある。たとえば例題の場合,判別式の値はおよそ2.44となり,P < 0.05 で有意と判定される。

練習10:ニホンアカガエルは典型的な里山の生物であり,特に丘陵地の谷沿いに開かれた「谷戸田」でよく見られる。都市近郊の谷戸田は都市化など環境改変の影響を受けやすいと考えられるため,保護を考える上で生息条件の解明が必要になる。夏原ら (2001) は,大阪府南部に評価対象地域を設定し,250mメッシュに区切って,それぞれのメッシュ内での卵塊の有無と環境条件との関係を調べた。谷地形があるメッシュとないメッシュで,それぞれ卵塊が観察されたものと観察されなかったものの数は次の通りになった(実際には175メッシュで調査がなされているが,練習問題用に再サンプリングして数を減らしてある)。

谷地形

存在
不在
卵塊 存在 4
0 4
不在 13 23 36

17 23 40

 表の結果から,ニホンアカガエルの卵塊は谷地形を含む場所で,そうでない場所よりも多く観察される傾向があったと言ってよいか。


本日のキーワード:度数,分割表,2×2分割表,Fisherの正確確率検定,連関
第7回へ→
←トップ頁へ