環境統計学  第7回

2004年6月1日  大塚泰介

1.測定値を代表する統計量

 標本の測定値を代表する統計量としてよく用いられるものに,平均中央値メディアン),最頻値モード)がある。平均は,全標本の測定値を合計して,標本数で割ったものである。中央値は,標本の測定値を上位から(あるいは下位から)並べていったときに,標本数が奇数ならばちょうど中央の順位のものの測定値,標本数が偶数なら順位が中央に最も近い2つの標本の測定値の平均である。最頻値は,データを頻度分布として階級ごとにまとめたときに,最も頻度が大きい階級の階級値である。
 このように定義を説明されてもピンと来ない人も少なくないだろうから,算出方法を実例で説明する。

例題7-1
  問題 3-2 で扱った,琵琶湖博物館で働く 16 人の右手と左手の掌の長さ(手根骨の基部から中指の先端まで)の違いを,(利き手の長さ-非利き手の長さ) としてまとめると次のようになった(単位 mm)。
-6, -5, -5, -2, -2, -2, -1, -1, 0, 0, 0, 0, 3, 4, 5, 6
この標本の(利き手の長さ-非利き手の長さ) について,平均,中央値,最頻値を求めよ。

解答
 平均は,合計が (-6)+(-5)+(-5)+(-2)+(-2)+(-2)+(-1)+(-1)+ 0+ 0+ 0+ 0+ 3+ 4+ 5+ 6 = -6 なので,これを標本数 16 で割って -6/16 = -0.375 (mm)。ただし測定値が 1 mm 単位なので,有効数字を考えると = 0 (mm) としてもよい。
 中央値は,8 番目と 9 番目の標本の測定値を平均すればよい。すなわち,{(-1)+ 0}/2 = -0.5 (mm)。ただし有効数字を考えると = -1 (mm) としてもよい。
 最頻値は,1 mm ごとの頻度分布を考える場合には,最も数が多い 0 (mm)。しかしこの値は,頻度分布の階級をどのようにとるかで変わってくる可能性がある。例として,階級の幅を 3 mm にとった場合を考えてみる。ただし階級値は,階級の範囲の上限と下限の平均値とした。
階級の範囲 (mm)
-7〜-5
-4〜-2
-1〜1
2〜4
5〜7
階級値 (mm)
-6
-3
0
3
6
頻度
3
3
6
2
2
このようにすると,最頻値は最も頻度が大きい -1 〜1 という階級の階級値 0 (mm) ということになり,階級の幅を 1 mm にしたときと同じになる。
 しかし,同様に階級の幅を 3 mm にとった場合でも,階級の範囲を変えた場合には結果が違ってくる。
階級の範囲 (mm)
-6〜-4
-3〜-1
0〜2
3〜5
6〜8
階級値 (mm)
-5
-2
1
4
7
頻度
3
5
4
3
1
このようにすると,最頻値は最も頻度が大きい -3 〜-1 という階級の階級値 -2 (mm) ということになる。

 さて,上記の例では平均,中央値,最頻値が互いにほぼ一致している。しかし次の例ではどうだろうか?

例題7-2
 小熊 (2003) は,介護保険の導入に際してなされた「高齢者の所得は現役世代と遜色ない」とする議論を,以下の 2 つの論点から批判している。
1)分布が偏っており、平均以下が 7 割近くになる統計から平均値で判断することは誤りである。
2)「高齢者世帯」の定義からいって、自立可能な高齢者を母集団とした統計である。当該統計の対象となるのは高齢者全体の4割にすぎない。これをもって高齢者の所得を推し量ることは誤りである。
 1) の点について,平成 13 年度国民生活白書は,「国民生活基礎調査」(2000 年) に基づいて,高齢者世帯 (65 歳以上の者のみで構成する世帯か、またはこれに 18 歳未満の未婚の者が加わった世帯。施設入所者は除く)の所得分布が次の通りであることを示している。
所得(万円)

50

100

150

200

250

300

350

400

450

500

550

600

650

700

750

800

850

900

950

1,000

1000〜
相対頻度(%)
3.4
9.5
16.1
14.2
10.2
8.7
7.8
7.6
5.2
3.2 3.7
1.3
0.6
1.5
0.8
0.7
0.9
0.5
0.5
0.1
3.6
 高齢者世帯の所得の最頻値は何万円か。また,中央値はどの階級に属するか。

解答
 最頻値は最も相対頻度が大きい階級,すなわち 100 万円〜150 万円という階級の階級値なので,階級の中央の値をとれば 125 万円。
 中央値は,累積相対頻度が 50% になる点を含む階級に属する。そこで相対頻度を下から順に足して累積相対頻度を求めると,
所得(万円)

50

100

150

200

250

300

350

400

450

500

550

600

650

700

750

800

850

900

950

1,000

1000〜
相対頻度(%)
3.4
9.5
16.1
14.2
10.2
8.7
7.8
7.6
5.2
3.2 3.7
1.3
0.6
1.5
0.8
0.7
0.9
0.5
0.5
0.1
3.6
累積相対頻度 (%)
3.4
12.9 29.0 43.2 53.4 62.1 69.9
77.5
82.7
85.9
89.6
90.9
91.5
93.0
93.8
94.5
95.4
95.9
96.4
96.5
100
 よって,中央値すなわち 50% 点は,200 万円〜250 万円までの階級に属する。

 ちなみに,この調査結果から得られた高齢者世帯の平均所得は 329万円であり,実に 67% が平均以下の所得である。また,ともに「標本の測定値を代表する統計量」と言いながら,最頻値と平均値には 2 倍以上の開きがある。
 このようにヒストグラムが左右対称にならない分布では,標本の測定値を代表する統計量として平均値のみを用いると,全体の傾向を的確に表現できないことが多い。

問題7-1
 アオコ(水の華)とは,浮遊性ラン藻(Microcystis, Anabaena など)が大発生して湖水が着色する現象である(狭義のアオコは Microcystis の大発生のみを指す)。琵琶湖のアオコは,一般に晩夏から秋にかけて発生し,他の季節にはほとんど見られない。浮遊性ラン藻は琵琶湖で一年中生息しているのだが,アオコ発生時期以外には泥上で休眠状態にあることが多く,湖水中にはほとんど現れない。
 滋賀県立衛生環境センター (1991) は,琵琶湖の3つの調査地点で1978年から,1ヶ月に2回ずつ調査を行い,プランクトン各種の単位水量あたり細胞数を計数している。以下の数値は,そのうちから1987年の南湖中央におけるMicrocystis aeruginosa(アオコをつくるラン藻の1種)の計数結果を,観測の順に示したものである (単位は細胞/ml)。
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 3, 40, 215, 53, 6, 2, 0, 0, 0, 0
この観測値の平均および中央値を求めよ。また,平均が全24標本の何位に相当するかを調べよ。

 測定値の分布型によっては,平均よりも幾何平均(相乗平均)が標本をよく代表することがある。幾何平均 G は次の式で定義される。

ここで,N は標本数,xi はi番目の標本の値である。
 生物学・環境科学では,実測値の対数に対して統計解析を行うことが多い。その場合,測定値の対数の平均値が,測定値の平均の対数ではなく,幾何平均の対数になることに注意しなければならない。

幾何平均は,必ず平均よりも小さな値をとる。また,測定値が0あるいは負のものを1つでも含む場合には用いる事ができない。

問題7-2
 以下の10個の測定値に対して平均と幾何平均を計算し,幾何平均の方が小さくなることを示せ。また,平均と幾何平均それぞれを中央値および最頻値と比較せよ。
2, 4, 4, 8, 8, 8, 8, 16, 16, 32
ヒント:底が2の対数を用いて計算すると簡単である。

2.測定値のばらつきを示す統計量

 標本の値のばらつき具合を表す指標としてよく用いられるのが分散である。標本分散は次の式で表される。

 ここで,n は標本数,xi はi番目の標本の値,m は標本から求められた平均値である。
 ところがこの標本分散の値は,母集団全体での分散,すなわち母分散の値より小さくなりがちなことが知られている。そこで,母分散の不偏推定値として,次の不偏分散が用いられる。

 不偏推定値とは,その期待値が母集団における値に一致する推定値,すなわち母集団における値よりも大きい方,あるいは小さい方に偏らない推定値のことである。もちろん不偏推定値も標本に基づく推定値である以上,誤差をもっている。平均については,測定値から算出された値が不偏推定値である。

 不偏分散の定義式を展開し,Σxi / n = m であることを用いると,不偏分散が次の式で計算できることがわかる。この式による計算は,平均値が予めわかっているときには特に有効である。


 不偏分散は,数学的な扱いが便利である一方,標本値の2乗に対応した値であるため,直感的に測定値や平均値との関係を把握する事が難しい。

例題7-3
 SK 大学前の水路で,5 匹のコアユ Plecoglossus altivelis subsp. をランダム・サンプリングして体長を測ったところ,次の通りだった。
95, 97, 98, 101, 109 (単位mm)
この結果から,採集当時における SK 大学前水路のコアユ個体群の体長分布について説明せよ。

解答
平均 m = (95+97+98+101+109)/5 = 100 (mm)
不偏分散s2= {(95-100)2+(97-100)2+(98-100)2+(101-100)2+(109-100)2}/(5-1) = 30 (mm2)

 しかし平均と不偏分散では単位が異なるので,これだけでは平均とばらつき具合にどのような関係があるかを読み取ることが難しい。

 さらに体長の単位を mm から cm にした場合,どのようなことが起こるであろうか。
9.5, 9.7, 9.8, 10.1, 10.9 (単位cm)
平均 m = (9.5+9.7+9.8+10.1+10.9)/5 = 10.0 (cm)
不偏分散s2:{(9.5-10)2+(9.7-10)2+(9.8-10)2+(10.1-10)2+(10.9-10)2}/(5-1) = 0.3 (cm2)
平均値が単位に合わせて1/10になっているのに対して,不偏分散は1/100になっている。

 このような不都合を避けるためには,測定値の尺度に直接対応したものをばらつきの尺度を用いればよい。その1つが標準偏差である。標準偏差は不偏分散の平方根として定義される。

 この式によって標本から算出された標準偏差は,厳密には母標準偏差の不偏推定値ではない。しかし標本分散の平方根よりは母標準偏差に近い値をとる傾向があるため,一般的に用いられている。

 標準偏差は,「母集団平均からの標本値のずれが,標準的にはこの程度である」ということを示す尺度であり,測定値および平均値と同じ単位をもつ。
 SK 大学前水路で捕獲されたコアユについて体長の標準偏差 (単位 mm) を計算すると,
301/2= 6
これは,各個体の体長が母集団平均から標準的には 6 mm 程度ずれていたことを示している。
 また,単位を cm にした場合の標準偏差は0.31/2= 0.6 となり,mm の場合に比べて測定単位と同じく 1/10 の値になっている。
 平均と標準偏差を用いて,SK 大学前水路のコアユ個体群の体長分布を次のように表現することができる。
平均±標準偏差=100±6(mm)

 測定値のばらつきの指標として,標準偏差を平均で割った値を用いる場合もある。これを変動係数という。変動係数は,測定値の尺度に影響されない無次元の尺度である。
例題のコアユの体長 (mm) について変動係数を計算すると,6/100 = 0.06,すなわち6% になる。この値は測定単位が cm の場合でも,0.6/10.0 = 0.06 と変わらない。

 さて,問題 7-1 で扱ったMicrocystis aeruginosa の例について,1 ml あたり細胞数の平均と標準偏差を計算したところ,それぞれ 13,45となった。しかしこれを
平均±標準偏差=13±45(個)
と表現すると,負の値をとる測定値がたくさんありそうな印象を受ける。1 mlあたり細胞数なので,実際には決して負の値はとらないのに,である。このような場合,測定された最大値と最小値を直接示した方が,測定値のばらつきを的確に表すことができる。
平均(最小〜最大)=13(0〜215)(個)
 なお,最大値と最小値の差,つまり215 - 0 = 215もばらつきの指標になる。これを範囲と呼ぶ。

 範囲は標本が多いほど大きくなる傾向がある。これよりも標本数の影響を受けにくい指標として,四分位範囲を用いることがある。 四分点範囲は,上位から数えて 25% に位置する測定値である第1四分位点(25%点)と,上位から数えて 75% に位置する測定値である第3四分位点(75%点)との差である。

問題 7-3
 前畑(未発表)は,ある地域の水田に産卵のための遡上してきたナマズをランダムに採集し,体長を測った。産卵期後期の 6 月中旬に捕獲された雌の体長は次の通りであった(単位 mm)。
414, 435, 453, 458, 460, 462, 480, 503, 509, 512, 532, 539, 540, 551
この第一四分点,中央値,第三四分点,および四分点範囲を求めよ。

解答
 測定値を小さい方から順に,全体の25%ずつを含む4つの階級に分ける。
414, 435, 453, 458, 460, 462, 480 | 503, 509, 512, 532, 539, 540, 551
下線を付した測定値は,それぞれ階級の境界,すなわち上位から数えて 25% と 75% の位置にある標本である。よって第3四分点は 458,第1四分点は 532。真中の境界には該当する測定値がないので,境界の両側にある 480 と 503 の平均,すなわち 491.5 を中央値とする。また四分点範囲は,第3四分位点と第1四分位点との差,すなわち 532 - 458 = 74 (mm) である。

 四分点範囲の内側に標本の50%が含まれており,また母集団においてもほぼ同様であることが推定される。
実際には四分点範囲を算出するより,第1四分位点と第3四分位点をそのまま用いた方が,測定値のばらつきを有効に示せる場合が多い。
また,もっと標本が多い場合には,四分位点を算出するのと同様の方法で5%点,95%点を算出し「例外的な1割の標本を除いた範囲」を示すことがある。

問題7-3
 島根県の宍道湖は,塩分 5 psu(NaCl 0.5% に相当)の汽水湖である。ここでアオコをつくる Microcystis sp. は,群体の形が典型的な Microcystis aeruginosa と異なるため,別種である可能性が示唆されている。大塚(2000)は,宍道湖で採集されたMicrocystis sp. 50 細胞の直径を測定し,次の結果を得た(単位mm)。ただし計算を簡単にするために,データの一部を改ざんしてある。(良い子は決して真似をしないでね)
直径 4.0〜4.2
〜4.4
〜4.6
〜4.8
〜5.0
〜5.2
〜5.4
〜5.6
〜5.8
〜6.0
〜6.2
階級値 4.1 4.3 4.5 4.7 4.9
5.1 5.3
5.5
5.7 5.9
6.1
細胞数 2 5 6 11 7
7 4
4
2 1
1

 各階級に含まれる細胞の直径が,全て階級値と同じだったと仮定して,細胞直径の平均,中央値,最頻値,標準偏差,第1四分点および第3四分点を求めよ。
 また,日本産Microcystis aeruginosaの細胞径は,3.2〜6.6μmとされている(渡辺, 1994)。宍道湖産Microcystis sp. の細胞直径はその範囲内にあると考えてよいか。

なお,測定値が等間隔の階級に区切られていて,元の値が不明な場合には,階級値から求められた標準偏差を次の式で補正することがある。

ただしsuは補正された標準偏差,s2は階級値から算出された不偏分散,I は階級の幅である。

問題7-4
 問題7-3 で算出された Microcystis sp. 細胞直径の標準偏差を,上記補正式によって補正し,補正前との値の違いを検討せよ。

本日のキーワード:平均中央値 = メディアン最頻値 = モード頻度分布頻度階級値幾何平均分散標本分散母分散不偏推定値不偏分散標準偏差変動係数範囲四分位範囲第1四分点第3四分点