環境統計学  第1回

2003年4月17日  大塚泰介

0.教科書

「生物統計学入門-具体例による解説と演習-」 石居進著,培風館,1975年,2300円
・古い本だが,生物などの研究者が実際によく用いる統計手法を中心に,その原理がよくわかるように解説している。将来,自分の研究結果を統計解析するときに,役に立つ可能性が大。
・教科書がなくても授業を進められるように,レジュメを用意する。

1.なぜ,生物学・環境科学で統計学か

 科学の根本はモデル・ビルディング→科学的な言明は,それが数式で表されたものかどうかにかかわらず,現象に対するモデルを提示していることになる。
 農学,医学,経済学,心理学など,モデルが複雑になる分野で統計に対する依存度が高い。
 物理学など,単純なモデルに対して高い適合が得られる分野では,むしろ統計に対する依存度が低い。
 →複雑で曖昧な現象を扱う分野ほど,統計解析が重要になる。

2.統計的検定の論理

例題1:男と女ではどちらが背が高いか?
 →この質問に対する答えは,このままでは得られない。
 理由1:個体に関する問いか,母集団の平均に関する問いかが明らかでない。個体に対する問い,つまり特定の男女1人ずつを比べているのであれば,男の方が大きい場合も,女の方が大きい場合もあるだろう。
 理由2:母集団に関する問いだとしても,その範囲が不明(全人類の?日本人の?小学6年生の?)

例題1(改):この教室の受講者の男と女では,平均身長はどちらが高いか?
 →全員の身長を測って,男女それぞれの平均値を比較すればよい。母集団が小さい場合には,この方法が最も確実。

それでは,もっと大きな母集団を相手にする場合にはどうすればよいか?
例題1(改々):日本人成人の男と女では,どちらの平均身長が高いか?
 全員の身長を測る事は(不可能ではないが)たいへん困難。そこで,代表になる個体を男女ともいくつか選んで,その身長を比較すればよい。
 しかし,偏った選び方をしてはいけない(例:バレーボール女子の試合会場内)。「中くらいの人を選んでとる」というのも,基準が明確でないのでだめ。でたらめ(ランダム)に,いろいろな場所から1人ずつ選んでくるのが一番簡単。これをランダム・サンプリングあるいは無作為抽出という。

 男女5人ずつの身長をランダム・サンプリングしたところ,それぞれの身長が次の通りであった。
男:177cm,172cm,167cm,165cm,161cm (平均168.4cm)
女:164cm,160cm,157cm,155cm,149cm (平均157.0cm)

 男のサンプルの平均身長が高いからといって,その結論をそのまま母集団にあてはめることはできない。例えば誰かが「たまたま今回のサンプリングではそうなっただけで,全体の平均身長は同じくらいなのではないか。現に,女の一番大きかった人は,男の一番小さかった人より大きいではないか。」と主張したときに,これを論理的に退ける事ができるだろうか。

 そこで,次の2つの対立仮説を用意する。
H0:日本人成人の男と女の平均身長に差はない*1
H1:日本人成人の男と女の平均身長に差がある(男の方が高いか,女の方が高いかのいずれかである)
この2つの対立仮説はどちらか一方のみが必ず正しく,もう一方はまちがっている(背反事象)。したがって, 帰無仮説H0が否定されれば H1が証明されたことになる。以下,この仮説を検定する。

*1:実は,以下で比較されているのは,厳密には身長の平均ではない。男の身長の分布がが女の身長の分布に比べて,高い方または低い方へ偏っているかどうかを見ているのである。

順位和検定の基礎
 日本人成人の母集団中で,もし男女の身長の分布が同じであれば,この10人の中での順位の合計も,男女で同じくらいになるはずである。
 しかし,順位をつけてみると,合計順位はかなり違っている。
男:1位,2位,3位,4位,6位→合計16位
女:5位,7位,8位,9位,10位→合計39位
 もし,男女の身長の分布が同じだとすれば,身長の平均値(あるいは合計順位)が高い方である男性の合計順位が16位以下になる可能性がどれくらいあるのだろうか?

男性の身長の順位について考えられる全ての組み合わせは,
 
 そのうち,男性の合計順位が15位になる組み合わせは1通り,16位になる組み合わせも1通り,計2通りしかない。しかし一方で,女性の方に同様に高い順位が偏る可能性もあり,女性の合計順位が16位以下になる2通りも「偏った順位になる可能性」として同様に考慮しなければならない。すなわち,男女のうち身長が高い方の合計順位が16位以下になる,という偏った組み合わせは,合計4通りになる。
 したがって,母集団における男女の身長の分布が同じである(帰無仮説H0)とすれば,このような順位の偏りを生じる可能性は,4/252=0.016,つまり1.6%ほどしかない。

 ゆえに,「H0:日本人成人の男と女の平均身長に差はない」とすると,100回のうち1,2回しか起こらないような順位の偏りが起こっているので,「H1:日本人成人の男と女の平均身長に差がある」という方がより説得力がある。そして,サンプルの順位(あるいは平均身長)が男性の方が高いので,平均身長は男性の方が高いといってもよいだろう。

 しかし,この論法には若干の危険がある。なぜなら,男女の母集団における身長の分布が同じである(帰無仮説H0)としても,このような順位の偏りを生じる可能性が1.6%ほどあるからである。そこでこの1.6%を,危険率と呼んでいる。通常,危険率が5%以下であれば,帰無仮説を否定(棄却という)してよいことになっている。
 このように統計的検定では,証明したい仮説と背反な対立仮説が「ありそうもない」ことを示すことで,仮説を証明しようとする。つまり背理法を用いているのである。ただし対立仮説を完全に否定できる事は稀なので,論証はほとんどの場合,曖昧さを残している。
 大部分の統計的検定で,ここで紹介したのと同様の論法を用いるので,しっかり覚えて欲しい。

練習1:上記と同様に,男女4人ずつの身長を測定したところ,次の通りであった。
男:177cm,172cm,165cm,161cm
女:164cm,160cm,155cm,149cm
この場合には,「男の方が母集団における平均身長が高い」と結論できるか。

今日のキーワード:モデル,検定,母集団,ランダム・サンプリング,無作為抽出,対立仮説,帰無仮説,排反事象,危険率,棄却,背理法

第2回へ→

←トップ頁へ