環境統計学  第11回

2003年6月26日  大塚泰介

1.期待値の信頼区間(続き)(教科書p.54〜55)

 前回の講義は,母集団における期待値μの95%信頼区間を
 
m:平均,s:標本標準偏差,n:標本数)
で推定すると,標本標準偏差がもつばらつきのために,標本数 n が小さいほど信頼区間を過小評価する傾向がある,さあどうしよう,というところで終わっていた。
 これを標準化した形に戻して考えると,母標準偏差の代わりに標本標準偏差を用いて標準化した平均値

のふるまい,すなわち分布型がわかれば,信頼区間が正しく求められることになる。
 実はこの分布型は,既に Gosset によって1908年に明らかにされており,彼の筆名をとって Student の t 分布と呼ばれている。t 分布の密度関数は次の式で表される。
 
 この恐ろしげな式を覚える必要は,数理統計学を専門にしない限り,たぶん一生ない。よって説明も省く。
 密度関数を吟味する代わりに,グラフを見ることにより,t 分布の概略的な特徴だけをつかんでおくことにする。t 分布の形は標準正規分布に良く似ている,特に自由度ν(ニュー)が無限大のときには,t 分布は標準正規分布と完全に一致する。しかしνが小さくなると,次第にやや平べったい,左右に長く裾をひく分布に変わっていく。

 ここで自由度νについて説明する必要があろう。一般に,独立に変動しうる変量の個数のことを自由度という。と言ってもピンとこないだろう。
例として2つの測定値から分散(あるいは標準偏差)を求める場合を考える。分散を求める場合には,先に期待値または平均値を決定しておく必要がある。母集団の期待値がわかっている場合には,2つの測定値がそれぞれ母集団から独立にとられているので,自由度は2になる。しかし,平均を2つの測定値から算出して決めた場合,1つの測定値を決めると,その測定値と平均との関係からもう1つの測定値が自動的に決まってしまうので,自由度は1になる。
測定値から決まる平均を先に固定しておいて,他と独立にとられたはずの1つの測定値から独立と自由を奪う,というのも何か倒錯した議論のようだが,こういう考え方をするのである。もう一つなじめない人も多いだろうが,実用上困らないように,とりあえず次のことを覚えておいて欲しい。
n 個の標本から算出された不偏分散(および標準偏差)のもつ自由度は,ν= n - 1 である

 さて,t 分布の累積密度分布のうち,よく使うところだけを表にまとめておく。横方向が自由度、縦方向が累積密度関数(確率)である。

ν 1 2 3 4 5 6 7 8 9 10 11 12 15 20 25 30 40
確率
0.95 6.31 2.92 2.35 2.13 2.02 1.94 1.90 1.86 1.83 1.81 1.80 1.78 1.75 1.73 1.71 1.70 1.68 1.65
0.975 12.71 4.30 3.18 2.78 2.57 2.45 2.37 2.31 2.26 2.23 2.20 2.18 2.13 2.09 2.06 2.04 2.02 1.98
0.99 31.82 6.97 4.54 3.75 3.37 3.14 3.00 2.90 2.82 2.76 2.72 2.68 2.60 2.53 2.49 2.46 2.42 2.33
0.995 63.66 9.93 5.84 4.60 4.03 3.71 3.50 3.36 3.25 3.17 3.11 3.06 2.95 2.85 2.79 2.75 2.70 2.58

t 分布は正規分布と同じく左右対称なので,例えば2.5%点ならば97.5%点の値に - をつければよい。例えば標本数 n = 10,すなわち自由度ν= 10 - 1 = 9のとき,t 分布の97.5%点は2.26なので,2.5%点は -2.26になる。

 以上から,標本標準偏差によって標準化された平均値の95%信頼区間を t 分布近似により求めると,次のようになる。
 
ただしtn-1(α)は自由度 n - 1 の t 分布の累積密度がαになるときの x の値,s は標本標準偏差,m は平均,μは母集団における期待値である。両端の2.5%ずつを切り捨てているので,範囲は2.5%点から97.5%点までになる。
 この式をμについてまとめると,次のようになる。
 
tn-1(0.025)=-tn-1(0.975)なので,期待値μの95%信頼区間は次のように簡略に表現できる。
 
この信頼区間の式は重要なので,ぜひ覚えてもらいたい。

 ようやく小標本から期待値の信頼区間を求める方法がわかったので,実際のデータに適用してみる。
例題18:藤川 (1973) はあるシバ型草地において,一様にシバが繁茂するように見える50 cm×60 cmの区画をとり,これを5 cm×4 cmの小区画150個に区切った。そしてそれぞれの小区画で深さ 5 cm までの土壌を採取し,その中からツルグレン装置によって動物を分離した。ここでは,その中から9区画をランダムに抽出し,それぞれに含まれていたササラダニ類(成体+ニンフ)の個体数を示す。
個体数:28, 9, 17, 9, 14, 23, 3, 16, 23
この区画が調査対象の草地を代表しているとして,この草地には1cm2あたり平均してどれくらいのササラダニ類が生息していたと考えられるか。95%信頼区間として示せ。

 まず,n = 9 なので,ν= 9 - 1 = 8。t 分布の表からt8 (0.975)のところを見ると,x = 2.31。したがって95%信頼区間は

である。
 次に,上式に代入するササラダニ類個体数の平均と標準誤差を求める。(小数点第一位までとした)
平均:m = (28+9+17+9+14+23+3+16+23)/9 =142/9 = 15.8
不偏分散:s2 = {Σ(xi - m)2}/(n - 1) ={Σxi2 - nm2}/(n - 1) = 64.2
標準偏差:s = 64.21/2 = 8.0
標準誤差:s /n1/2 =8.0 / 91/2 = 2.3
したがって95%信頼区間は,
15.8±2.31・2.3 = 15.8±5.3
となる。しかしここで問題になっているのは,1区画 20 cm2 あたりではなく,1 cm2 あたりの個体数である。したがって,算出された信頼区間を20で割ったものが答えになる。

解答:この草地におけるササラダニ類の個体密度を95%信頼区間で表すと,0.79±0.27個体/cm2 となる。

練習15:滋賀県 (1992) は1991年に,琵琶湖全域で抽水植物の調査を行った。抽水植物が繁茂する湖岸300地点にそれぞれ1 m×1 m の方形区を設定し,その中に含まれる抽水植物のシュートを全て刈りとって種ごとの数,重量などを測定した。次に示す数字は,内湖(河口などにできた小湖沼)に設定された31地点のうち,任意に抽出された10の方形枠について,生きたヨシのシュート数を示したものである。
58, 54, 51, 0, 24, 19, 22, 13, 21, 31
合計Σxi = 293,二乗和Σxi2 = 11873
このデータから,琵琶湖の内湖の抽水植物群落における,ヨシの1 m2 あたりシュートの95%信頼区間を算出せよ。ただし101/2 = 3.16とし,小数点以下を四捨五入して示せ。
 また,同時に行われた調査で,琵琶湖の内湖全体では抽水植物群落がおよそ1.97 km2 あることがわかった。これをもとに,調査当時に琵琶湖の内湖全体で生えていたヨシのシュート総数を推定し,95%信頼区間として示せ。

本日のキーワード:Studentの t 分布,自由度
第12回へ→
←トップ頁へ