環境統計学  第6回

2004年5月25日  大塚泰介

1.事前比較・事後比較,多重性

 統計的検定において,対立仮説は実験・調査の計画段階で決定されなければならない。その理由を考察するために,次の例題を考えてみる。

例題6-1
 棚田の上部と下部にある2つの水田で,プランクトン群集が異なるかどうかを調べた。2つの水田からそれぞれ5本のサンプルをとって,20 μm から 2 mm までの大きさのプランクトンを同定したところ,全部で 20 分類群を同定することができた。それぞれの分類群について,Mann-Whitney の U 検定によって水田間での個体群密度の違いを検定したところ,ただ1つ分類群 A のみについて危険率 5% すれすれで有意差が検出された。
 この結果をどのように解釈すべきであろうか?

解釈1:2つの水田間で,分類群 A の個体群密度に有意な違いがある。
 この研究における対立仮説は次の通りである。
H1:2つの水田における,分類群 A の個体群密度は等しくない。
H0:2つの水田における,分類群 A の個体群密度は等しい。
 この仮説に基づいて検定すると,分類群 A については,2 つの水田間で個体群密度に有意差が認められた (P < 0.05)。以下,同様にして他の分類群についても検定を行ったが,いずれも有意差は検出されなかった (P > 0.05)。

解釈2:2つの水田間で,プランクトン群集の分類群組成に有意差を認めるべきではない。
 この研究における対立仮説は次の通りである。
H1:2つの水田におけるプランクトンの分類群組成は異なる。
H0:2つの水田におけるプランクトンの分類群組成は同じである。
 もし帰無仮説 H0 が正しいとすれば,各種について P < 0.05 で有意差が検出される可能性は 5% である。しかし,この検定を 20 種について繰り返していくと,有意差が検出される回数の期待値は 0.05×20 = 1,すなわち,20 回検定を繰り返すと平均して 1 回,有意差が検出されることになるのである。その場合,1 回も有意差が検出されない確率は 0.9520 = 0.36,1 回だけ有意差が検出される確率は 1C20×0.05×0.9519 = 0.38,2 回以上有意差が検出される確率は 0.26 であり,むしろ観察結果は H0 が正しいと仮定したときに最も起こりがちなものであったことがわかる。
 すなわち,20 種のうち 1 種だけに P < 0.05 で有意差が検出されたとしても,プランクトン群集の分類群組成が異なることの証拠にはならない。むしろ,H0 が正しいと仮定したときに最も起こりがちな結果が起こっただけなのである。

 この2つの解釈はパラドックスのようにみえる。どちらも正しそうに見えるのだが,結論は互いに矛盾しているからである。なぜこのようなことが起こったのだろうか。

 この例題では,事前に設定した対立仮説が解釈1解釈2で異なっていたために,検定結果にも大きな違いが生じてしまったのである。解釈1では,分類群 A を始めとするそれぞれの分類群の個体群密度の違いが,事前に検定の対象として想定されている。これに対して解釈2では,事前に検定の対象として想定されていたのは分類群組成全体の違いであり,全体に違いがないならば個別の違いを云々するのは無意味であると考えている。
 このような問題が生じるのを防ぐために,実験・調査の計画段階でどのような対立仮説を検定するのかを予め決めておく必要がある。実験・調査の前に計画された比較を事前比較という。解釈2での対立仮説は,明らかに事前比較としての体裁を整えている。
 これに対して解釈1における対立仮説は,ほぼ確実にデータを見てから決定されたものである。なぜなら,この比較が事前比較であるためには,調査以前にこれから観察される分類群が全てわかっていたという,無理な想定をしなければならないからである。このように,データを見てから行われる比較を事後比較という。

 統計検定においては事前比較を行うことが大原則である。しかしこの例題で個々の分類群について検定を行いたい場合には,どうしても事後比較を行わなければならない。その場合,個々の分類群について危険率 5% という規準を適用していくと,全体の種組成に違いがないにもかかわらず,どれかの分類群で偶然に有意差を検出してしまう確率がかなり大きくなる(この例では 64% にも及ぶ!)。これを多重性の問題という。 事後比較における多重性の問題を回避するためには,事前比較の場合とは異なる基準を用いなければならない。その規準を決定する方法の1つに Sidak の方法がある。これは,それぞれの検定結果が互いに独立であることがわかっている場合に,n回検定を繰り返した場合に 1 回以上有意差が検出される確率が 5% になる確率,すなわち
1 - (1-α)n = 0.05
となるαを,有意差を検出するための危険率の基準とする方法である。

 さて,上記の例題で,比較すべき 20 分類群が,本当に研究計画段階で全て決定されていたとしたら,解釈1解釈2のどちらが妥当なのだろうか?この場合,解釈1の対立仮説も事前比較として妥当なものとなる。
 実はこの問いに対する明確な解答はない。しかし統計学の世界では,全体として有意な違いがない場合には,それに含まれる個別要素の違いを云々することには意味がないとする考え方の方が主流である。つまりこの場合にも,一般的には解釈2の考え方の方がより支持されるのである。

問題6-1
 例題6-1 で,事後比較により各分類群の水田間での違いを検定する場合には,危険率何% を規準にすればよいか。Sidak の方法により計算せよ。

2.片側検定と両側検定

 ここまでで扱ってきた検定では常に,統計量が実測されたのと反対側に偏る可能性を考慮してきた。事前比較を建前とする以上,対立仮説を設定した段階では統計量がどちらに偏るか分からないためである。このように,統計量が大小どちらに偏る可能性も同様に考えた上で行う検定方法を,両側検定という。

 しかし実際には,実験・調査の計画段階で,統計量が偏る方向が十分に予測できる場合がある。たとえば問題5-2 で扱ったカワムツとオイカワの側線鱗数の例では,多くの研究者が既にオイカワの側線鱗数のほうが少ない傾向があることを指摘しており,その反対の記述は見当たらない。また,例題2-2 および例題3-2 で扱った,落語を聞く前後でのNK細胞活性比較の例では,これに先だって吉本新喜劇を見たガン患者のNK細胞活性が上がるという報告がなされている。こうした場合,それぞれ「カワムツの側線鱗数がオイカワより少ない傾向がある」「落語を聞くとNK細胞活性が下がる」という可能性はかなり低い。もし,こうした可能性を経験的,あるいは論理的に排除できるならば,仮説は次のように変わってくることになる。

カワムツとオイカワの側線鱗数の場合
両側検定での対立仮説
H1:カワムツとオイカワでは側線鱗数の分布に違いがある。
H0:カワムツとオイカワでは側線鱗数の分布に違いがない。

「カワムツの側線鱗数がオイカワより少ない傾向がある」可能性を排除した,片側検定での対立仮説
H1:カワムツの側線鱗数はオイカワよりも多い傾向がある。
H0:カワムツとオイカワの側線鱗数の分布には違いがない。

落語を聞く前後での NK 細胞活性の比較の場合

両側検定での対立仮説
H1:落語を聞いた後に NK 細胞の活性が上昇または下降する傾向がある。
H0:落語を聞いた後に生じる NK 細胞の活性変化に傾向はない

「落語を聞くと NK 細胞活性が下がる」可能性を排除した,片側検定での対立仮説
H1:落語を聞いた後に NK 細胞の活性が上昇する傾向がある。
H0:落語を聞いた後に生じる NK 細胞の活性変化に傾向はない。

 このように,統計量が予測される方向の反対に偏る可能性を排除した上で行う仮説検定を,片側検定という。
 片側検定の危険率P は一般に,両側検定の1/2になる。これは両側検定においてP = 0.08で帰無仮説が棄却できなかった場合でも,片側検定ではP = 0.04で帰無仮説を棄却できることを意味する。したがって,片側検定の検出力は両側検定より高い。

 以下の場合に,片側検定を用いることができる。
A. 統計量が一方に偏る可能性が,経験的あるいは論理的に十分な根拠をもって排除できる場合。ただし,その根拠が覆されると検定の妥当性そのものが失われるので,根拠不十分な場合には両側検定にしておいた方がよい。
B. 統計量が一方に偏ることの意味が,その反対に偏るのと根本的に異なる場合。例として,分割表に対するχ2 検定(第 12 回で取り上げる)を挙げておく。この検定において,統計量が大きな値をとる場合には,2つの類別変数に連関がある可能性が高い。逆に著しく小さな値をとる場合には,2つの類別変数に連関がない上で起こった単なる偶然か,ランダム・サンプリングが行われなかったかのいずれかである。

問題6-2
 次の場合に,片側検定を適用することができると思うか?理由とともに述べよ。
A ある地域における成人男性と成人女性の体重の違いを検定する場合。
B 産卵にやってきたビワコオオナマズの雌雄の体長の違いを検定する場合。
C ザ・ドリフターズのコントを見た後に,NK 細胞の活性が上昇する傾向があるかどうかを検定する場合。
 
本日のキーワード:事前比較事後比較多重性Sidak の方法両側検定片側検定