環境統計学  第8回

2003年6月5日  大塚泰介

1.測定値を代表する統計量(教科書p.19〜23)

 複数の測定値を代表する値として,最もよく用いられるのが平均(相加平均)である。しかし,平均が常に母集団中での代表的な値を表すとは限らない。

例題11:滋賀県立衛生環境センター (1991) は,琵琶湖の3つの調査地点で1978年から,1ヶ月に2回ずつ調査を行い,プランクトン各種の単位水量あたり細胞数を計数している。以下の数値は,そのうちから1987年の南湖中央におけるMicrocystis aeruginosa(アオコをつくるラン藻の1種)の計数結果を,観測の順に示したものである (単位は細胞/ml)。
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 3, 40, 215, 53, 6, 2, 0, 0, 0, 0
この観測値の平均を求めよ。また,その平均値が全24標本の何位に相当するかを調べよ。

解答:平均値はおよそ13細胞/mlである。この値は全24標本中の3位と4位の間に相当する。

つまりこの例では24回の観測結果のうち,平均値を上回ったのは3回だけで,残りの21回はそれ以下の値である。そして24回の観測のうち実に17回までは,細胞数は顕微鏡下での計数の検出限界以下だったのである。
 こういう場合に平均値を算出することの意味は,例えばヒトの身長のように平均値付近に多くの標本が分布する場合に比べると薄い。観測値のうち順位が中位になるときの値である中央値(メジアン)や,最もよく観測された値である最頻値*1(モード)の方が,実態をよく表す。この例ではいずれの値も0である。
*1:最頻値の定義はやや曖昧である。一般的には,測定値を一定の間隔で区切ってヒストグラムを作成し,最も頻度が大きい階級の階級値(階級の中央の値)を最頻値とする。しかし最頻値は,階級の起点や間隔によって値が変わってくるため,標本数が少ない場合には母集団分布を反映しないことが少なくない。

中央値や最頻値を算出した場合でも,その値で代表させることによって切り捨てている情報があることを知る必要がある。例題の場合には,例えば「Microcystis aeruginosaが215細胞/mlにも及んだことがあった」という情報である。実際にこの年には,琵琶湖で初めてMicrocystisを中心としたアオコが観測されている。

 測定値の分布型によっては,平均よりも幾何平均(相乗平均)が標本をよく代表することがある。幾何平均は次の式で定義される。

ここで,Nは標本数,xiはi番目の標本の値, は標本から求められた平均値である。
 生物学・環境科学では,実測値の対数に対して統計解析を行うことが多い。その場合,測定値の対数の平均値が,測定値の平均の対数ではなく,幾何平均の対数になることに注意しなければならない。

幾何平均は,必ず平均よりも小さな値をとる。また,測定値が0あるいは負のものを1つでも含む場合には用いる事ができない。

練習11:計算を簡単にするために全く架空の例を用いる。以下の10個の測定値に対して平均と幾何平均を計算し,幾何平均の方が小さくなることを示せ。また,平均と幾何平均それぞれを中央値および最頻値と比較せよ。
2, 4, 4, 8, 8, 8, 8, 16, 16, 32
ヒント:底が2の対数を用いて計算すると簡単である。

2.測定値のばらつきを示す統計量(教科書p.23〜24)

 標本の値のばらつき具合を表す指標としてよく用いられるのが分散である。標本分散は次の式で表される。

 ここで,n は標本数,xi はi番目の標本の値,m は標本から求められた平均値である。
 ところがこの標本分散の値は,母集団全体での分散,すなわち母分散の値より小さくなりがちなことが知られている。そこで,母分散の不偏推定値*2として,次の不偏分散が用いられる。
 
 *2:不偏推定値といっても,標本に基づく値である以上,誤差をもっている。その誤差が母集団における値よりも大きい方,あるいは小さい方に偏らない推定値,すなわち期待値が母集団での値に一致する推定値を不偏推定値と呼んでいる。なぜnの代わりにn - 1で割ると母分散の不偏推定値になるのかについては,第14回の授業で検討することにする。なお平均については,測定値から算出された値が不偏推定値である。

 不偏分散の定義式を展開し,Σxi / n = m であることを用いると,不偏分散が次の式で計算できることがわかる。この式による計算は,平均値が予めわかっているときには特に有効である。


 不偏分散は,数学的な扱いが便利である一方,標本値の2乗に対応した値であるため,直感的に測定値や平均値との関係を把握する事が難しい。

例題12:SK大学前の水路で,5匹のコアユを捕獲して体長を測ったところ,次の通りだったとする(この値は架空のものだが,5月頃の実態にほぼ即している)。
95, 97, 98, 101, 109 (単位mm)
平均値 :(95+97+98+101+109)/5 = 100
ここから不偏分散,すなわち「SK大前の水路におけるコアユ母集団の体長の分散」の推定値を計算すると,次のようになる。
不偏分散s2= {(95-100)2+(97-100)2+(98-100)2+(101-100)2+(109-100)2}/(5-1) = 30 (mm2)
これだけでは,平均値と不偏分散にどのような関係があるかを読み取ることが難しい。
さらに体長の単位をmmからcmにした場合,どのようなことが起こるであろうか。
9.5, 9.7, 9.8, 10.1, 10.9 (単位cm)
平均値 :(9.5+9.7+9.8+10.1+10.9)/5 = 10.0 (cm)
不偏分散s2:{(9.5-10)2+(9.7-10)2+(9.8-10)2+(10.1-10)2+(10.9-10)2}/(5-1) = 0.3 (cm2)
平均値が単位に合わせて1/10になっているのに対して,不偏分散は1/100になっている。

 このような不都合を避けるためには,測定値の尺度に直接対応したものをばらつきの尺度を用いればよい。その1つが標準偏差である。標準偏差は不偏分散の平方根として定義される*3

*3:この式によって標本から算出された標準偏差は,厳密には母標準偏差の不偏推定値ではない。しかし標本分散の平方根よりは母標準偏差に近い値をとる傾向があるため,一般的に用いられている。
 
 標準偏差は,「母集団平均からの標本値のずれが,標準的にはこの程度である」ということを示す尺度であり,測定値および平均値と同じ単位をもつ。
 上のコアユの例では,コアユ体長の標準偏差は単位がmmの場合で301/2 ≓6であり,各個体の体長が母集団平均から標準的には6 mm程度ずれていることがわかる。また,単位がcmの場合の標準偏差は0.31/2 ≓0.6であり,mmの場合に比べて測定単位と同じく1/10の値になっている。

 測定値のばらつきの指標として,標準偏差を平均で割った値を用いる場合もある。これを変動係数という。変動係数は,測定値の尺度に影響されない無次元の尺度である。
例題のコアユの体長 (mm) について変動係数を計算すると,6/100 = 0.06,すなわち6%になる。この値は測定単位が cm の場合でも,0.6/10.0 = 0.06 と変わらない。

さて,例題11で扱ったMicrocystis aeruginosaの例について,1 mlあたり細胞数の標準偏差を計算したところ,およそ45となった。平均値13と標準偏差45は同じ単位(個)をもつので,しばしば次のように表現される。
平均±標準偏差=13±45(個)
しかしこのように表現されると,負の値をとる測定値がたくさんありそうな印象を受ける。1 mlあたり細胞数なので,実際には決して負の値はとらないのに,である。このような場合,測定された最大値と最小値を直接示した方が,測定値のばらつきを的確に表すことができる。
平均(最小〜最大)=13(0〜215)(個)
なお,最大値と最小値の差,つまり215 - 0 = 215もばらつきの指標になる。これを範囲と呼ぶ。

 範囲は標本が多いほど大きくなる傾向がある。これよりも標本数の影響を受けにくい指標として,四分位範囲を用いることがある。その計算方法を,第2回の例題2で扱ったナマズの例を用いて以下に示す。

例題13:前畑(未発表)は,ある地域の水田に産卵のための遡上してきたナマズをランダムに採集し,体長を測った。産卵期後期の6月中旬に捕獲された雌の体長は次の通りであった(単位mm)。この四分点範囲を求めよ
414, 435, 453, 458, 460, 462, 480, 503, 509, 512, 532, 539, 540, 551
この測定値は小さい方から順に並んでいる。これを小さい方から順に,全体の25%ずつを含む4つの階級に分ける。
414, 435, 453, 458, 460, 462, 480 | 503, 509, 512, 532, 539, 540, 551
下線を付した測定値は,それぞれ階級の境界,すなわち上位から数えて25%と75%の位置にある標本である。それぞれの値を,第1四分位点(25%点)および第3四分位点(75%点)という。真中の境界には該当する測定値がないので,境界の両側にある480と503の平均,すなわち491.5を第2四分位点(中央値)とする。

解答:四分点範囲は,第3四分位点と第1四分位点との差,すなわち 532 - 458 = 74 (mm) である。

 四分点範囲の内側に標本の50%が含まれており,また母集団においてもほぼ同様であることが推定される。
実際には四分点範囲を算出するより,第1四分位点と第3四分位点をそのまま用いた方が,測定値のばらつきを有効に示せる場合が多い。
また,もっと標本が多い場合には,四分位点を算出するのと同様の方法で5%点,95%点を算出し「例外的な1割の標本を除いた範囲」を示すことがある。

練習12:宍道湖でアオコをつくるMicrocystis sp. は,群体の形が典型的なMicrocystis aeruginosaと異なるため,別種である可能性が示唆されている。大塚(2000)は,宍道湖で採集されたMicrocystis sp. 50細胞の直径を測定し,次の結果を得た(単位mm)。ただし計算を簡単にするために,データの一部を改ざんしてある。(良い子は決して真似をしないでね)
直径 4.0

4.2

4.4

4.6

4.8

5.0

5.2

5.4

5.6

5.8

6.0

6.2
階級値
4.1
4.3
4.5
4.7
4.9

5.1
5.3

5.5

5.7
5.9

6.1
細胞数
2
5
6
11
7

7
4

4

2
1

1

 各階級に含まれる細胞の直径が,全て階級値と同じだったと仮定して*4,細胞直径の平均,中央値,最頻値,標準偏差,第1四分点および第3四分点を求めよ。
 また,日本産Microcystis aeruginosaの細胞径は,3.2〜6.6μmとされている(渡辺, 1994)。宍道湖産Microcystis sp. の細胞直径はその範囲内にあると考えてよいか。

*4:測定値が等間隔の階級に区切られていて,元の値が不明な場合には,階級値から求められた標準偏差を次の式で補正することがある。

ただしsuは補正された標準偏差,s2は階級値から算出された不偏分散,I は階級の幅である。

本日のキーワード:平均,中央値,最頻値,幾何平均,分散,標本分散,母分散,不偏推定値,不偏分散,標準偏差,変動係数,範囲,四分位範囲,第1四分点,第3四分点
第9回へ→

←トップ頁へ