環境統計学  第5回

2004年5月18日  大塚泰介

1.Mann-Whitney の U 検定:I 連続変数への適用

 Mann-Whitney の U 検定は,Wilcoxon の順位和検定と同じく順位和に基づいた検定で,適用できるデータも,検定の結果も,Wilcoxon の順位和検定と全く同じである。
 違うのは用いる統計量だけである。すなわち,Wilcoxon の順位和検定では,標本数が少ない方の順位和を直接用いたのに対して,U 検定では平均順位が小さい方の順位和から順位和の最小値を引いた値

UiU 統計量,Ri:平均順位が小さい方の順位和,Ni:平均順位が小さい方の標本数)
を算出して,数表と比較する。U 統計量が対応する数表の値より小さければ,2 群の値の分布に違いがある,と判定する。

Mann-Whitney検定表(P < 0.05,両側検定)


N1


3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
N2 3
- - 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8
4
- 0 1 2 3 4 4 5 6 7 8 9 10 11 11 12 13 13
5
0 1 2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 20
6
1 2 3 5 6 8 10 11 13 14 16 17 19 21 22 24 25 27
7
1 3 5 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
8
2 4 6 8 10 13 15 17 19 22 24 26 29 31 34 36 38 41
9
2 4 7 10 12 15 17 20 23 26 28 31 34 37 39 42 45 48
10
3 5 8 11 14 17 20 23 26 29 33 36 39 42 45 48 52 55
11
3 6 9 13 16 19 23 26 30 33 37 40 44 47 51 55 58 62
12
4 7 11 14 18 22 26 29 33 37 41 45 49 53 57 61 65 69
13
4 8 12 16 20 24 28 33 37 41 45 50 54 59 63 67 72 76
14
5 9 13 17 22 26 31 36 40 45 50 55 59 64 67 74 48 83
15
5 10 14 19 24 29 34 39 44 49 54 59 64 70 75 80 85 90
16
6 11 15 21 26 31 37 42 47 53 59 64 70 75 81 86 92 98
17
6 11 17 22 28 34 39 45 51 57 63 67 75 81 87 93 99 105
18
7 12 18 24 30 36 42 48 55 61 67 74 80 86 93 99 106 112
19
7 13 19 25 32 38 45 52 58 65 72 48 85 92 99 106 113 119
20
8 13 20 27 34 41 48 55 62 69 76 83 90 98 105 112 119 127

例題 5-1
 前回取り上げたナマズ雌雄の体長の違いを,U 検定によって検定してみる。前畑(未発表)は,ある地域の水田に産卵のための遡上してきたナマズをランダムに採集し,体長を測った。6 月中旬に捕獲されたナマズの体長は,雌雄それぞれ以下のとおりであった(単位 mm)。
雌:551, 540, 539, 532, 512, 509, 503, 480, 462, 460, 458, 453, 435, 414
雄:465, 420, 415, 400, 375, 357, 310, 255
 この時期にこの地域の水田に遡上したナマズの体長分布には,雌雄で違いがあったと言えるか。

対立仮説
H1:産卵のために水田に遡上してきたナマズの体長分布は,雌雄で異なる。
H0:産卵のために水田に遡上してきたナマズの体長分布は,雌雄とも同じである。

 全体の中で体長が大きいものから順に順位をつけると,
雌:1 位, 2 位, 3 位, 4 位,5 位, 6 位, 7 位, 8 位, 10 位, 11 位, 12 位, 13 位, 14 位, 17 位 →順位和 113
雄:9 位, 15 位, 16 位, 18 位, 19 位, 20 位, 21 位, 22 位 →順位和 140

 雌雄の平均順位は,それぞれ 113/14 = 8.1 位,140/8 = 17.5 位,平均順位が小さい(高い)雌について U 統計量を算出すると,
U1 = R1 - N1 (N1+1)/2 = 113 - 14・15/2 = 8
数表の対応する場所(N1 =14, N2 =6)を見ると,値は 17。計算された値はこれよりも小さい 8 である。よって帰無仮説は棄却され (P > 0.05),雌の方が体長の平均順位が高かったことから,雌の体長が雄よりも大きい有意な傾向があったといえる。

Mann-Whitney の U 検定の手続きをまとめると次のようになる。
1.まず,全てのサンプルのデータを込みにして順位をつける。
2.それぞれの群について順位和を計算し,平均順位が小さい方について U 統計量を計算する。
3.算出された U 統計量を,数表の対応する値と比較し,数表の値よりも小さければ仮説を採択する。

問題5-1
 クチビルケイソウの 2 種,Encyonema silesiacumEncyonema simile はともに清澄な河川によく出現し,互いによく似ているためこれまで区別されてこなかった。しかし両者の細胞を包む殻の写真を並べてみると,明らかに後者の方が「スマートな」,すなわち長さの割に細い印象を与える。そこで斐伊川で採集された両種の写真を「ランダムに」撮影し,写真を実寸の 2000 倍に引き伸ばして殻幅を測定したところ,次の結果となった(単位μm)。
Encyonema silesiacum:9.6, 9.6, 8.7, 8.5, 8.2, 7.8, 7.5, 7.5, 6.5, 6.5
Encyonema simile:7.4, 7.3, 7.2, 6.8, 6.7, 6.7, 5.5, 5.3
 この結果から,両者の殻幅に違いがあると言ってよいか。Mann-Whitney の U 検定によって検討せよ。

 これまで Wilcoxon の順位和検定や Mann-Whitney の U 検定で扱ってきた身長,体長,幅などのデータは,原理的には全ての正の値をとり得る。また,測定精度を上げれば,全ての標本が互いに異なる値をとると考えられる。こうした変数を比率と呼んでいる。これに対して pH や摂氏温度のように,0 が便宜的に決められている変数を間隔という。間隔と比率を合わせて連続変数と呼んでいる。

2.Mann-Whitney の U 検定:II 離散変数への適用

 計数によって得られたデータは,必ず0または自然数の値をとり,それ以外の値をとらない。このように飛び飛びの値をとる変数を離散変数(または不連続変数)という。
 離散変数にも順位をつけることができるが,同点が生じる可能性が大きくなる。したがって順位和を用いた検定を適用する際には,同点処理を正しく行うことが重要になる。

例題5-2
 かつてカワムツという種にまとめられていた魚には,実は 2 種が含まれていたことが明らかになり,河川上中流域に多い本来のカワムツ Zacco temmincki と,河川下流域や沼沢に多いヌマムツ Zacco sieboldii の2種に分けられることになった(Hosoya et al. 2003)。以下はその 2 種について,側線鱗数を計数した結果である。
カワムツ:47, 47, 48, 50, 50, 50, 50, 51, 51, 52, 52, 52
ヌマムツ:54, 57, 58, 58, 60, 61, 61, 61, 65
ヌマムツの側線鱗数は,カワムツより多い傾向があるといってよいか。

対立仮説
H1:カワムツとヌマムツでは側線鱗数の分布に違いがある。
H0:カワムツとヌマムツでは側線鱗数の分布に違いがない。

 側線鱗数が少ない方から順位をつける。 同点の補正に注意しながら順位を与えると,
カワムツ順位:1.5, 1.5, 3, 5.5, 5.5, 5.5, 5.5, 8.5, 8.5, 11, 11, 11
ヌマムツ順位:13, 14, 15.5, 15.5, 17, 19, 19, 19, 21

 カワムツ,ヌマムツの標本数はそれぞれN1 =12,N2 =9なので,順位和および平均順位は以下の通りとなる。
カワムツ:順位和 R1 =78,平均順位 78/12 = 6.5位
ヌマムツ:順位和 R2 =153,平均順位 153/9 = 17位

 平均順位が小さい方のカワムツについて U 統計量を計算すると,
U1 = R1 - N1 (N1+1)/2 = 78 - 12・13/2 = 0
N1 =12,N2 =9における U 統計量の 5 %点を数表から読み取ると,U = 26。計算されたU1 はこれよりずっと小さいので,両者の側線鱗数には有意差があるといえる (P < 0.05)。

 ただし,側線鱗数の分布に違いがあるからと言って,それが分類の決定的な基準になると即断してはならない。ヌマムツ,カワムツともに側線鱗数にはかなりのばらつきがあるので,例えば側線鱗数が 52 の個体がカワムツであるか,ヌマムツの特に側線鱗数が多い個体であるかについては,このデータだけからは判断できないのである。側線鱗数を分類の決定的な基準とするためには,もっとたくさんの(反論を実質的に封じ込められるだけの)標本をいろいろな地域から集めて,ヌマムツとカワムツの側線鱗数に重なりがないことを示す必要がある。

問題 5-2
 これまでカワムツとオイカワの間には側線鱗数に大きな違いがあるとされてきた。しかし,側線鱗数が多い個体群が別種とされたため,カワムツとオイカワの側線鱗数の違いは従来考えられていたほどではなかったことになる。
 そこで,琵琶湖博物館にある滋賀県産オイカワの標本 6 個体について側線鱗数を計数したところ,以下の通りであった。
オイカワ:43, 43, 43, 43, 44, 45
 このデータと先述のカワムツの側線鱗数との比較から,オイカワの側線鱗数がカワムツよりも少ない傾向があると言ってよいか。

3.Mann-Whitney の U 検定:III 階級データへの適用

 稀に,データが最初から順位の形で得られることがある。それよりもよくあるのは,データが何段階かの階級として得られることである。こうした場合にも,Mann-Whitneyの U 検定を用いることができる。データが階級として得られることは,特に社会統計で多いので,ここでは社会統計の調査結果を例題とする。

例題 5-3
 島根県益田市が1996年に20歳以上の市民を対象に行ったアンケートで,「男は仕事,女は家庭」という考え方に対する賛否を聞いたところ,男女でそれぞれ以下の結果となった。ただし「わからない」と解答したもの,および無解答は除いてある。


賛成 どちらかといえば賛成 どちらかといえば反対 反対
24 83 31 17
26 104 83 25

この結果から「男は仕事,女は家庭」という考え方に対する賛否の傾向が,男女で異なると言ってよいか。

対立仮説
H1:「男は仕事,女は家庭」に対する賛否の傾向は男女で異なる。
H0:「男は仕事,女は家庭」に対する賛否の傾向は男女で異ならない。

 次に順位をつけるのだが,この場合には多くの標本が4つの階級に分けられているため,同点がたいへんに多い。賛成,どちらかといえば賛成,どちらかといえば反対,反対 の総数はそれぞれ50,187,114,42なので,この順に順位をつけるなら,それぞれ1〜50位,51〜237位,238〜351位,352〜394位になる。そこで,賛成,どちらかといえば賛成,どちらかといえば反対,反対 のそれぞれに属する標本に対して,階級内での平均順位である25.5位,144位,294.5位,373位を与える。

 男女の標本数はそれぞれ N1 = 155,N2 = 238 なので,順位和および平均順位は以下の通りとなる。
男:順位和 R1 = 25.5×24 + 144×83 + 294.5×31 + 373×17 = 28034.5,平均順位 約181位
女:順位和 R2 =25.5×26 + 144×104 + 294.5×83 + 373×25 = 49407.5,平均順位 約208位

 平均順位が小さい方の男について U 統計量を計算すると,
U1 = R1 - N1 (N1+1)/2 = 28034.5 - 155・156/2 = 15944.5
N1 = 155,N2 = 238 における U 統計量の5%点を数表から読み取ると,…そんなものは記されていない。このように標本数が大きいときには,以下の値を計算する。

 zi  > 1.96 ならば,P < 0.05 で両者の分布に有意差があるといってよい。ここでは,
z1 = (155・238/2 - 15944.5)/{155・238・(155 + 238 + 1)/12}1/2 = 2.27
この値は 1.96 よりも大きいので,帰無仮説 H0 は棄却される (P < 0.05)。すなわち,「男は仕事,女は家庭」という考え方には,男の方が賛成する傾向が強い有意な傾向がみられた。

本日のキーワード:Mann-Whitney の U 検定比率間隔連続変数離散変数 = 不連続変数順位階級