環境統計学  第10回

2004年6月22日  大塚泰介

1.期待値の信頼区間(続き)

 前回の講義は,母集団における期待値μの95%信頼区間を

m:平均,s:標本標準偏差,n:標本数)
で推定すると,標本標準偏差がもつばらつきのために,標本数 n が小さいほど信頼区間を過小評価する傾向がある,さあどうしよう,というところで終わっていた。
 これを標準化した形に戻して考えると,母標準偏差の代わりに標本標準偏差を用いて標準化した平均値

のふるまい,すなわち分布型がわかれば,信頼区間が正しく求められることになる。
 実はこの分布型は,既に Gosset によって1908年に明らかにされており,彼の筆名をとって Student の t 分布と呼ばれている。t 分布の密度関数は次の式で表される。

 この恐ろしげな式を覚える必要は,数理統計学を専門にしない限り,たぶん一生ない。よって説明も省く。
 密度関数を吟味する代わりに,グラフを見ることにより,t 分布の概略的な特徴だけをつかんでおくことにする。t 分布の形は標準正規分布に良く似ている,特に自由度ν(ニュー)が無限大のときには,t 分布は標準正規分布と完全に一致する。しかしνが小さくなると,次第にやや平べったい,左右に長く裾をひく分布に変わっていく。

 ここで自由度νについて説明する必要があろう。一般に,独立に変動しうる変量の個数のことを自由度という。と言ってもピンとこないだろう。
 例として 2 つの測定値から分散(あるいは標準偏差)を求める場合を考える。分散を求める場合には,先に期待値または平均値を決定しておく必要がある。母集団の期待値がわかっている場合には,2 つの測定値がそれぞれ母集団から独立にとられているので,自由度は 2 になる。しかし,平均を 2 つの測定値から算出して決めた場合,1 つの測定値を決めると,その測定値と平均との関係からもう 1 つの測定値が自動的に決まってしまうので,自由度は 1 になる。
 測定値から決まる平均を先に固定しておいて,他と独立にとられたはずの 1 つの測定値から独立と自由を奪う,というのも何か倒錯した議論のようだが,こういう考え方をするのである。もう一つなじめない人も多いだろうが,実用上困らないように,とりあえず次のことを覚えておいて欲しい。
n 個の標本から算出された不偏分散(および標準偏差)のもつ自由度は,ν= n - 1 である

 さて,t 分布の累積密度分布のうち,よく使うところだけを表にまとめておく。横方向が自由度、縦方向が累積密度関数(確率)である。

ν 1 2 3 4 5 6 7 8 9 10 11 12 15 20 25 30 40
確率
0.95 6.31 2.92 2.35 2.13 2.02 1.94 1.90 1.86 1.83 1.81 1.80 1.78 1.75 1.73 1.71 1.70 1.68 1.65
0.975 12.71 4.30 3.18 2.78 2.57 2.45 2.37 2.31 2.26 2.23 2.20 2.18 2.13 2.09 2.06 2.04 2.02 1.98
0.99 31.82 6.97 4.54 3.75 3.37 3.14 3.00 2.90 2.82 2.76 2.72 2.68 2.60 2.53 2.49 2.46 2.42 2.33
0.995 63.66 9.93 5.84 4.60 4.03 3.71 3.50 3.36 3.25 3.17 3.11 3.06 2.95 2.85 2.79 2.75 2.70 2.58

t 分布は正規分布と同じく左右対称なので,例えば 2.5% 点ならば 97.5% 点の値に - をつければよい。例えば標本数 n = 10,すなわち自由度ν= 10 - 1 = 9 のとき,t 分布の 97.5% 点は 2.26 なので,2.5%点は -2.26 になる。

 以上から,標本標準偏差によって標準化された平均値の95%信頼区間を t 分布近似により求めると,次のようになる。

ただしtn-1(α)は自由度 n - 1 の t 分布の累積密度がαになるときの x の値,s は標本標準偏差,m は平均,μは母集団における期待値である。両端の 2.5% ずつを切り捨てているので,範囲は 2.5% 点から 97.5% 点までになる。
 この式をμについてまとめると,次のようになる。

tn-1(0.025)=-tn-1(0.975)なので,期待値μの 95% 信頼区間は次のように簡略に表現できる。

この信頼区間の式は重要なので,ぜひ覚えてもらいたい。

 ようやく小標本から期待値の信頼区間を求める方法がわかったので,実際のデータに適用してみる。

 土の中には様々な土壌動物がおり,多くは落葉など植物の枯死体を食べている。土壌動物には原生動物や線虫類のように肉眼で見えないものが多いが,肉眼でどうにか見える大きさ (0.2 mm 以上) の土壌動物の中で最も数が多いのが,トビムシ類(昆虫)とササラダニ類(ダニ)である。

例題10-1
 藤川 (1973) はあるシバ型草地において,一様にシバが繁茂するように見える 50 cm×60 cm の区画をとり,これを 5 cm×4 cm の小区画 150 個に区切った。そしてそれぞれの小区画で深さ 5 cm までの土壌を採取し,その中からツルグレン装置によって動物を分離した。ここでは,その中から 9 区画をランダムに抽出し,それぞれに含まれていたササラダニ類(成体+ニンフ)の個体数を示す。
個体数:28, 9, 17, 9, 14, 23, 3, 16, 23
この区画が調査対象の草地を代表しているとして,この草地には 1 cm2 あたり平均してどれくらいのササラダニ類が生息していたと考えられるか。95% 信頼区間として示せ。

 まず,n = 9 なので,ν= 9 - 1 = 8。t 分布の表から t8 (0.975) のところを見ると,x = 2.31。したがって 95% 信頼区間は

である。
 次に,上式に代入するササラダニ類個体数の平均と標準誤差を求める。(小数点第一位までとした)
平均:m = (28+9+17+9+14+23+3+16+23)/9 =142/9 = 15.8
不偏分散:s2 = {Σ(xi - m)2}/(n - 1) ={Σxi2 - nm2}/(n - 1) = 64.2
標準偏差:s = 64.21/2 = 8.01
標準誤差:s /n1/2 =8.0 / 91/2 = 2.67
したがって 95% 信頼区間は,
15.8±2.31×2.67 = 15.8±6.2
となる。しかしここで問題になっているのは,1 区画 20 cm2 あたりではなく,1 cm2 あたりの個体数である。したがって,算出された信頼区間を 20 で割ったものが答えになる。

解答:この草地におけるササラダニ類の個体密度を 95% 信頼区間で表すと,0.79±0.31 個体/cm2 となる。

問題10-1
 滋賀県 (1992) は 1991 年に,琵琶湖全域で抽水植物の調査を行った。抽水植物が繁茂する湖岸 300 地点にそれぞれ 1 m×1 m の方形区を設定し,その中に含まれる抽水植物のシュートを全て刈りとって種ごとの数,重量などを測定した。次に示す数字は,内湖(河口などにできた小湖沼)に任意に設定された 10 の方形枠について,生きたヨシのシュート数を示したものである。
58, 54, 51, 0, 24, 19, 22, 13, 21, 31
合計Σxi = 293,二乗和Σxi2 = 11873
 このデータから,琵琶湖の内湖の抽水植物群落における,ヨシの 1 m2 あたりシュートの 95% 信頼区間を算出せよ。
 また,同時に行われた調査で,琵琶湖の内湖全体では抽水植物群落がおよそ 1.97 km2 あることがわかった。これをもとに,調査当時に琵琶湖の内湖全体で生えていたヨシのシュート総数を推定し,95% 信頼区間として示せ。

本日のキーワード:Studentの t 分布自由度