環境統計学  第10回

2003年6月19日  大塚泰介

1.標準正規分布の特徴(教科書p. 46〜51)

 前回も扱ったとおり,標準正規分布は,期待値が0,標準偏差が1の正規分布である。前回に続きもう一度,密度関数を示す。

ちなみにこのφ(ファイ)というギリシャ文字は,アルファベットのfに対応する。他にも,標本の平均値 m に対して期待値μ,不偏分散 s2に対して母分散σ2 のように,一般に大もとになる値や分布はギリシャ文字を用いて表現されることが多い。
正規分布を,N(μ, σ2) のように表現することがある。この表現に従えば,標準正規分布はN(1, 0) となる。

累積標準正規分布の表
x -2.58 -2.33 -1.96 -1.65 -1.28 -0.67 0 0.67 1.28 1.65 1.96 2.33 2.58
Φ(x) 0.005 0.01 0.025 0.05 0.1 0.25 0.5 0.75 0.9 0.95 0.975 0.99 0.995

累積標準正規分布のグラフ
 標準正規分布に従う母集団から抽出された値xが,母集団の中で下位からみてどれだけの割合のところにあるかを示す分布が,累積標準正規分布である。これは,標準正規分布のグラフが -∞から x までの範囲で囲う部分の面積に相当する。
 累積標準正規分布を,関数Φ(x) で表現する。Φ(ファイ)が大文字になっていることに注意。

例題16:標準正規分布に従う母集団から得られた標本のうち95%が収まる範囲を,なるべく狭い区間として表現したい。x の範囲をどのようにとるのが適当か。

 標準正規分布のグラフは左右対称で,0から遠ざかるほど値が小さくなっていく。したがって同じ幅の区間をとるのであれば,グラフに囲われる部分が最大になるのは,原点を中心として左右対称に区間をとったときである。つまり,両側の2.5%ずつを切り捨てて,累積標準正規分布の2.5%点から97.5%点までとすればよい。
解答:累積標準正規分布の2.5%点から97.5%点までの区間,すなわち -1.96 ≤ x ≤ 1.96の区間をとればよい。

上の例題で求めた区間を,標準正規分布の95%信頼区間という。同様にして,50%信頼区間ならば両側の25%ずつを切り捨てて -0.67 ≤ x ≤ 0.67,90%信頼区間なら両側の5%ずつを切り捨てて-1.65 ≤ x ≤ 1.65,99%信頼区間なら両側の0.5%ずつを切り捨てて-2.58 ≤ x ≤ 2.58 とすればよい。

2.測定値の標準化

 測定値を平均0,標準偏差1にそろえることを標準化という。標準化は次の式により行われる。

ただしui は標準化された測定値,xi はもとの測定値,m は平均,s は標準偏差である。

 測定値が属する母集団の分布が明らかな場合には,期待値と母標準偏差を用いて標準化をすることもできる。その場合には次の式で標準化が行われる。


例えば二項分布に従う測定値を標準化すると,期待値μ= np,標準偏差σ= (npq)1/2 なので
 
(n:試行回数,p:事象が起こる確率,q:事象が起こらない確率)
となり,ポアソン分布に従う測定値を標準化すると,μ=λ,σ=λ1/2 なので,
 
となる。

 このような標準化を行う理由はたいてい,標準正規分布との比較にある。第4回に二項検定で,

を判別基準にするという話を書いた。実はこれは p = 1/2 のときに限った話であり,一般には

が判別基準になる(p = 1/2 のときに上式と一致することを確認せよ)。これは,二項分布を標準正規分布に近似した場合の95%信頼区間
 
すなわち

の外側にほぼ対応する*1。

*1:それでは,対応しない部分,すなわち -1/2にはどのような意味があるのだろうか。実はこれは連続修正と呼ばれる。二項分布は変数 x が整数に限られる離散分布なので,それぞれのxが連続分布である正規分布の x -1/2から x +1/2までの範囲に対応すると考えられる。そこで,棄却のための境界線を,x の値で1/2だけ外側にずらしているのである。
 本講義で学んできた,順位や大小関係を利用する統計手法(一括してノンパラメトリック手法と呼ばれる)で算出される統計量の大部分では,標準正規近似をする際に同様の連続修正をする。しかし,統計量によっては,連続修正によってかえって近似が悪くなる場合もある。

3.期待値の信頼区間(教科書p. 51〜54)

 母集団からランダム・サンプリングによって得られた標本測定値の平均は,標本数が多くなるにつれて母集団の期待値に近づいていく傾向がある。そして標本数をどんどん増やして行った果てには,平均が期待値に一致するようになる。これを大数の法則と呼んでいる。
大数の法則と,前回述べた中心極限定理を組み合わせると,次のことが言える。
「十分に多くの標本から算出された平均値の分布はほぼ正規分布に従い,その期待値からのばらつきは十分に小さくなる」

例題17:上の言及の意味するところを,宮下ら (1956) によって調査されたモンシロチョウの卵の分布を例に考えてみる。彼らは圃場の21のうねに18株ずつ植えられた,計378株のキャベツそれぞれにうみつけられたモンシロチョウの卵の数を数えた。すると各株上の頻度分布は次のようになった。
1株当たり卵数 0 1 2 3 4 5 6
株数 182 101 51 25 10 7 2

この分布は明らかに左右対称でなく,正規分布からは程遠い。

 そこで次に,この母集団の中から無作為にn個の標本をとって平均する,という操作を繰り返してみる。標本数n = 1, 4, 9, 16それぞれの場合について,復元抽出*2によって100組のサンプルをとった場合の平均値の確率分布を次に示す。

*2:母集団から抽出,測定された標本を測定後に母集団へ戻し,次の抽出を行う,というやり方。この方法をとると,有限母集団に対しても無限母集団の仮定がかなり通用するようになる。

まず,標本数nが大きくなるにつれて,すなわち平均が多くの標本から算出された場合ほど,分布が左右対称の正規分布に近づいていることがわかるであろう。これが中心極限定理の実際的な意味である。また,標本数 n が大きくなるにつれて,分布が平均値に近いところに集中していることが読み取れるであろう。これが大数の法則の実際的な意味である。

 さて,それぞれの平均値の分布における,(平均値の)平均,標本分散,標準偏差を,母集団のそれと比較すると次のようになる。

母集団
n = 1 n = 4 n = 9 n = 16
平均 0.97 0.91 1.01 0.97 1.00
不偏分散 1.55 1.36 0.32 0.16 0.09
標準偏差 1.24 1.16 0.57 0.40 0.30

すると,平均はいずれも母集団の平均(期待値)に近い値を示すが,分散および標準偏差は n が大きくなるにつれて小さくなっていくことがわかる。特に不偏分散に注目すると,n にほぼ反比例して小さくなっている。

 上の結果から推定されるように,標本の平均値がもつ分散は,母分散σ2を標本数 n で割った値として推定することができる。

ただしσm2 は平均値の分散である。これを標準偏差について考えると,次のようになる。

ただしσm は平均値の標準偏差である。この平均値の標準偏差σm を,標本の標準偏差σと区別するために標準誤差と呼んでいる。標準誤差は標本数 n の平方根に反比例する。

 さて,ここまでで,標本数が十分に多い場合にはその平均値がほぼ正規分布に従い,平均値の標準偏差である標準誤差は標本数nの平方根に反比例することがわかった。すると標本の平均値から,標準正規近似によって母集団における期待値の信頼区間を推定することができることになる。すなわち,標準化された期待値μの95%信頼区間であれば,

ただし m は標本から算出された平均,μは母集団における期待値,σは母標準偏差である。母標準偏差σの推定値として標本標準偏差 s を用い,上式を変形すると,

となり,これが母集団における期待値μの95%信頼区間になる。より簡易には,μの95%信頼区間は

であると表現する。

練習14
:上述のモンシロチョウ卵の例で,100株のキャベツから得られた卵数の平均は0.910,標準偏差は1.16であった。上式によって95%信頼区間を推定せよ。

 さて,やっと平均値の信頼区間を推定する方法にたどりついた。しかしこの算出方法で信頼区間を推定すると,標本数 n が少ない場合には区間を狭く評価しすぎてしまうことが多いのである。ちゃんと手順を踏んで推定方法を考えてきたはずなのに,なぜ?
 実はその原因は,母標準偏差σを標本標準偏差 s へ置き換えたところにある。標本標準偏差には母標準偏差と違って値のばらつきがあり,特に標本数 n が少ない場合に,信頼区間がそのばらつきの影響を受けてしまうのである。それでは,その影響をうまく制御して,正しい信頼区間を求めるにはどうすれば良いのであろうか。その方法について次回で扱う。乞うご期待。(前回と同じような引きになってしまった…)

本日のキーワード:累積標準正規分布,信頼区間,標準化,大数の法則,標準誤差
第11回へ→

←トップ頁へ