環境統計学  第5回

2003年5月15日  大塚泰介

1.Wilcoxonの符号順位検定 (教科書p. 127〜131)

 第4回の2章で扱った符号検定では、対応する二群のデータの大小関係のみを符号化して用いた。同様のデータを、順位の情報を用いて検定するのがWilcoxonの符号順位検定である*1

*1:Wilcoxonの符号順位検定は、既出の「Wilcoxonの順位和検定」と混同しやすいので注意。単にWilcoxon検定と書かれている場合には、どちらを指すかわからないので、データの型(二群のデータ間に対応があるか、ないか)を見て判断する必要がある。

例題8:BW湖は広大な湖で、大小100以上もの流入河川をもつ。その中から7つをランダムに選び、ある晴れた日に河口域でpHを同時測定したところ、9時と15時の測定値は次のとおりであった。
河川 A B C D E F G
9時のpH 7.2 6.9 7.1 7.2 7.5 6.8 7.1
15時のpH 7.9 6.8 7.2 7.5 8.3 7.0 7.2

この結果から、BW湖流入河川ではこの日、9時よりも15時にpHが高い傾向があったと言えるか。

 まず、対立仮説を設定する。
H1:この日のBW湖流入河川では、9時よりも15時にpHが高い、あるいは低い傾向があった
H0:この日のBW湖流入河川では、9時から15時までのpHの変化に傾向性がなかった(帰無仮説)
 この場合、pHが9時よりも15時に上がるか、下がるかは、測定をして始めてわかることなので、どちらであるかを限定しない仮説設定になる。また、これに対立する帰無仮説は「変化がない」ではなく「変化に傾向性がない」である。

 次に、各河川について、9時と15時のpHの差を求める。そして、結果を符号と絶対値に分けて記し、絶対値の小さい方から順位をつける。この場合にはWilcoxonの順位和検定やMann-WhitneyのU検定と異なり、必ず小さい方から順位をつけなければならない。同点処理も忘れないこと。もし変化がなかったものがあれば、除外して順位をつける。
河川 A B C D E F G
9時のpH 7.2 6.9 7.1 7.2 7.5 6.8 7.1
15時のpH 7.9 6.8 7.2 7.5 8.3 7.0 7.2
pHの差 0.7 -0.1 0.1 0.3 0.8 0.2 0.1
符号 + - + + + + +
絶対値 0.7 0.1 0.1 0.3 0.8 0.2 0.1
絶対値順位 6 2 2 5 7 4 2

 もし、pHが9時より15時に上がる傾向も下がる傾向もないとすれば、符号が+の側も−の側も絶対値の順位和が同じくらいになることが期待される。その場合、順位和の期待値は+側、−側ともに (1+7)×7 / 2 / 2 = 14 位になる。
そこで、符号が+のもの、−のものそれぞれについて順位和を計算して、両者が同程度になっているかどうかを調べてみる。
+:6 + 2 + 5 + 7 + 4 + 2 = 26   −:2
すると、順位和は+の方がずっと大きい。すなわち、pHは15時のほうが高い傾向がありそうである。この傾向が統計的に有意であることを言うためには、これほどの順位和の違いは「9時から15時までのpHの変化に傾向性がなかった」とすれば稀に(確率5%以下で)しか起こらないことを示せばよい。

さて、もし変化に傾向性がなければ、絶対値順位が1位の河川の符号が+になるか−になるかは、確率的に1/2ずつである。2位、3位、4位、5位、6位、7位についても、それぞれ同様である。つまり、それぞれの順位を+と−に振り分ける方法は、全部で27 = 128通りあって、それぞれが等しい確率で起こるはずである。
ここで、小さい方の順位和である−側の2を、検定に用いる統計量Tとする。すると順位和Tが2以下になる方法は、−のものが一つもない場合(順位和0)、1位だけが−の場合(順位和1)、および2位だけが−の場合(順位和2)の計3通りしかない。ただし調査計画の時点でpHが高い方を15時の側に限定していないので、+側の順位和が2以下になる3通りも同様に考える必要がある。
どちらか小さい側の順位和Tが2以下になる確率は、(3 + 3) / 128 ≓ 0.047。したがって危険率P = 0.047で帰無仮説は棄却される。9時よりも15時にpHが高い河川の方が多かったので、9時よりも15時にpHが高い有意な傾向があったと言える (P = 0.047)。

例題9:第4回の2章で扱ったのと同じデータである。西田・大西 (2001) は、被験者26人に落語を聞かせ、その直前30分以内と直後30分以内にNK細胞活性(相対値%)を測定した。以下はその結果である。
71 70 68 67 66 66 65 61 60 60 59 59 58 58 57 50 50 50 49 47 42 42 40 38 31 29
69 69 71 63 71 69 70 58 65 56 64 55 70 69 56 67 57 49 46 51 52 46 46 46 36 32

この結果から、落語を聞いた後にNK細胞の活性が上昇する傾向があったと言えるかどうかを、Wilcoxonの符号順位検定によって検定せよ。

対立仮説は前回と同じである。
H1:落語を聞いた後にNK細胞の活性が上昇または下降する傾向がある。
H0:落語を聞いた後に生じるNK細胞の活性変化に傾向性はない(帰無仮説)

そして、結果を符号と絶対値に分けて記し、絶対値の小さい方から順位をつける。
71 70 68 67 66 66 65 61 60 60 59 59 58 58 57 50 50 50 49 47 42 42 40 38 31 29
69 69 71 63 71 69 70 58 65 56 64 55 70 69 56 67 57 49 46 51 52 46 46 46 36 32
-2 -1 3 -4 5 3 5 -3 5 -4 5 -4 12 11 -1 17 7 -1 3 4 10 4 6 8 5 3
符号 - - + - + + + - + - + - + + - + + - - + + + + + + +
絶対値 2 1 3 4 5 3 5 3 5 4 5 4 12 11 1 17 7 1 3 4 10 4 6 8 5 3
絶対値順位 4 2 7 12 17 7 17 7 17 12 17 12 25 24 2 26 21 2 7 12 23 12 20 22 17 7

符号が+のもの、−のものそれぞれについて順位和を計算する。
+:7 + 17 + 7 + 17 + 17 + 17 + 25 + 24 + 26 + 21 + 12 + 23 + 12 + 20 + 22 + 17 + 7 = 291
−:4 + 2 + 12 + 7 + 12 + 12 + 2 +2 + 7 = 60
このうち小さい方の60を、検定に用いる統計量Tとする。

 それでは、統計量Tが60より小さくなる確率はどれだけだろうか?ここで直接計算をすることはあまりお勧めしない。また例によって、先人の計算結果,数表を用いる。

Wilcoxonの符号順位検定の数表(P = 0.05,両側検定)
N 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
T 0 2 4 6 8 11 14 17 21 25 30 35 40 46 52 59 66 73 81 89 98 107 116 126 137

ただし、Nは同点のものを除いた標本の対の数である。

 N = 26のところを見ると、T = 98。計算された統計量Tはこれより小さいので、落語を聞いた直後には、落語を聞く直前よりもNK細胞活性が高くなる有意な傾向があったと言える (P < 0.05)。

おや?何か変だぞ。第4回の例題7で、同じデータを符号検定で検定したときには、「有意差なし」と判定されたのではなかったか?
実は、Wilcoxonの符号順位検定では、順位を加味している分、符号検定よりも有意差を検出しやすい傾向があるのである。これを検出力が高いという。したがって対応する二群の大小関係に傾向があることを論証したい場合、差の大きさに順位がつけられるのであれば、Wilcoxonの符号順位検定を用いた方が良いことになる。
 もう1つ思い返してほしいのは、「有意差がない」ことは「差がない」ことを必ずしも意味しない、ということである。帰無仮説が棄却されないことは、差がないことの積極的な証拠にはならない。上記の例で、落語を聞く前後でNK細胞の活性に有意差がなかったとしたら、「データが不足しているようなので差について論じるのをやめておこう」「被験者を増やして再実験をしよう」(判定の保留)、さもなくば「差があるとしても、これだけの標本数で有意差にならないのだから大した差ではないのだな」(帰無仮説の消極的な採択)などと考えるべきなのである。

練習8:日本河川協会 (1998, 2001) は、全国の一級河川に設けられた定点で毎月測定されたBOD値をまとめている。その中から任意に選んだ12定点では、1996年と1998年に測定されたBODの75%点(測定値を小さい方から順に並べたとき、上位から75%にあたる値)が下表の通りであった。
河川 美幌川 北上川 隅田川 阿賀野川 天竜川 東高瀬川 由良川 旭川 古川 小瀬川 仁淀川 川内川
地点 美幌橋 船田橋 岩淵水門 松浜橋 中央橋 三須橋 以久田橋 合同堰 大下 大和橋 八田堰 栗野
1996年 1.3 0.9 6.2 0.7 3.2 2.1 0.8 0.8 2.5 3.2 0.9 0.8
1998年 2.0 0.9 5.4 0.8 2.4 1.8 0.7 0.8 2.0 2.8 0.7 0.5

以上の結果から、日本の一級河川では、1996年より1998年にBOD値 (75%点) が低い傾向があったと言ってよいか。

Wilcoxonの符号順位検定でも、標本の対の数Nが十分に大きい(概ねN > 25)ときには、次の判別規準に従う場合に帰無仮説を棄却することができる*2

*2:これも例によって標準正規分布近似である。

練習9:例題2を上記の判別規準に従って検定し、結果を確かめよ。

本日のキーワード:Wilcoxonの符号順位検定、検出力
第6回へ→

←トップ頁へ