記述統計度数分布尺度水準代表値散布度

1. 幹葉図

1. 幹葉図
2. 度数分布・相対度数分布
3. 累積度数分布・累積相対度数分布
4. 階級の数

幹葉図

次の100個の数値の分布を調べる。

61 51 75 67 55  43 57 59 63 65  63 51 57 51 65  37 59 49 69 59
63 65 63 41 71  57 77 57 49 63  69 69 67 51 51  59 49 57 45 81
67 59 63 73 59  63 47 53 59 41  69 59 57 45 63  63 61 71 65 53
63 83 69 35 69  51 55 41 79 41  49 59 59 65 57  55 59 45 57 55
69 59 79 73 79  63 57 59 35 53  63 67 71 79 51  55 69 61 61 57

上位の桁のとなりに下位の桁を整列させた図のことを幹葉図(みきはず; Stem-and-leaf diagram)という。 通常は最下位の桁(一の位)を「葉」,最下位より上位の桁(十の位から上位)を「幹」とすることが多い。 次の表ははじめの10個まで書きすすめたものである。

3
43
51579
61735
75
8

100個すべてが書けたら,一の位を並べ替えておく。 面倒なら並べ替えの手順は省略してもかまわない。 幹葉図によって大まかな分布がわかり, 度数分布表とヒストグラムを兼ね備えたような表現が得られる。

3557
41111355579999
511111113335555577777777779999999999999
6111133333333333355555777799999999
711133579999
813

次のページへ

1 2 3 4 Next

2. 度数分布・相対度数分布

1. 幹葉図
2. 度数分布・相対度数分布
3. 累積度数分布・累積相対度数分布
4. 階級の数

度数分布

次の100個の数値をもとに度数分布表を作り,分布を調べよう。

61 51 75 67 55  43 57 59 63 65  63 51 57 51 65  37 59 49 69 59
63 65 63 41 71  57 77 57 49 63  69 69 67 51 51  59 49 57 45 81
67 59 63 73 59  63 47 53 59 41  69 59 57 45 63  63 61 71 65 53
63 83 69 35 69  51 55 41 79 41  49 59 59 65 57  55 59 45 57 55
69 59 79 73 79  63 57 59 35 53  63 67 71 79 51  55 69 61 61 57

与えられた数値の最大値と最小値の間を適当な区間に分ける。 その区間のことを階級または級(class)という。 すべての数値は必ずどれか一つの階級に含まれるようにする。 階級は「~~以上~~未満」または「~~超~~以下」のどちらかの形式に統一しておく。

階級の上限値から下限値を引いた値のことを階級の幅または級間隔という。 階級の幅はどの階級も同じにすることが多い。 階級の上限値と下限値の中間の値(平均値)のことを階級値または級中値(あるいは級中央値または級代表値とも)という。

そして,階級に含まれる数値の個数のことを度数または頻度(frequency)という。 度数分布表とは各々の階級に対する度数をまとめた表のことである。

階級を32から8ごとに区切ると,次のような度数分布表ができる。 階級値は省略してもかまわない。

階級階級値度数
32 – 40363
40 – 48449
48 – 565219
56 – 646039
64 – 726820
72 – 80768
80 – 88842
合計100

相対度数分布

度数を度数の合計で割った値のことを相対度数(relative frequency)という。 相対度数は,全データの中でその度数の占める割合を表している。 相対度数の合計は常に1に等しい。

階級階級値相対度数
32 – 40360.03
40 – 48440.09
48 – 56520.19
56 – 64600.39
64 – 72680.20
72 – 80760.08
80 – 88840.02
合計1.00

ヒストグラム

度数分布表から作った棒グラフのことを,ヒストグラムまたは柱状図(histogram)という。 ヒストグラムでは一つの階級を一つの長方形で表すが, 長方形の幅が階級の幅に,長方形の面積が度数に比例するように書く。 特に階級の幅が等しいときは,長方形の高さが度数に比例する。

下左の図は度数分布表から作ったヒストグラム,下右の図は相対度数分布表から作ったヒストグラムである。

度数折れ線

ヒストグラムにおいて,各々の長方形の頂上の点を線分でつないでできるグラフのことを, 度数折れ線または度数分布多角形という。 度数折れ線では,横軸の値は階級値を用いる。 また最小階級の左隣りと最大階級の右隣りにも度数0の階級があると考えて, その点にも折れ線をつないでおく。

下左の図は度数分布表から作った度数折れ線,下右の図は相対度数分布表から作った度数折れ線である。 度数折れ線はヒストグラムのかわりに用いることができる。

次のページへ

1 2 3 4 Next

3. 累積度数分布・累積相対度数分布

1. 幹葉図
2. 度数分布・相対度数分布
3. 累積度数分布・累積相対度数分布
4. 階級の数

累積度数分布

最小階級の度数からその階級の度数までの合計のことを累積度数または累積頻度(cumulative frequency)という。 累積度数分布表とは各々の階級までの累積度数をまとめた表のことである。 最大階級の累積度数は常に度数の合計に等しい。

階級度数累積度数
32 – 4033
40 – 48912
48 – 561931
56 – 643970
64 – 722090
72 – 80898
80 – 882100
合計100

累積相対度数分布

最小階級の相対度数からその階級の相対度数までの合計のことを累積相対度数または累積相対頻度(cumulative relative frequency)という。 最大階級の累積相対度数は常に1に等しい。

階級相対度数累積相対度数
32 – 400.030.03
40 – 480.090.12
48 – 560.190.31
56 – 640.390.70
64 – 720.200.90
72 – 800.080.98
80 – 880.021.00
合計1.00

累積度数折れ線

横軸の値を階級の上限値,縦軸の値を累積度数とする各点を線分でつないでできるグラフのことを, 累積度数折れ線という。 最小階級の下限値にも折れ線をつないでおく。

下左の図は累積度数分布表から作った累積度数折れ線,下右の図は累積相対度数分布表から作った累積度数折れ線である。 なお,累積度数を図に表すときはヒストグラムより折れ線が適している。

次のページへ

1 2 3 4 Next

4. 階級の数

1. 幹葉図
2. 度数分布・相対度数分布
3. 累積度数分布・累積相対度数分布
4. 階級の数

階級の変更によるヒストグラムの変化

同一のデータから階級を変えて度数分布表を作る。 はじめの表は,階級の幅を8とした場合の度数分布表である。

階級度数
32 – 403
40 – 489
48 – 5619
56 – 6439
64 – 7220
72 – 808
80 – 882

2番目の表は階級の幅を拡大し,16とした場合の度数分布表である。

階級度数
32 – 4812
48 – 6458
64 – 8028
80 – 962

3番目の表は階級の幅を縮小し,4とした場合の度数分布表である。

階級度数
32 – 362
36 – 401
40 – 445
44 – 484
48 – 5211
52 – 568
56 – 6023
60 – 6416
64 – 689
68 – 7211
72 – 763
76 – 805
80 – 842

上段のヒストグラムははじめの表から作ったもので,この図を基準に考える。 下段左のヒストグラムは2番目の表から,下段右のヒストグラムは3番目の表から作ったものである。

2番目(下段左)のヒストグラムは階級の幅が広く,階級の数が少ない。 階級の数を減らしすぎたために情報量が減ってしまい,細かな分布が読み取れなくなっている。 反対に,3番目(下段右)のヒストグラムは階級の幅が狭く,階級の数が多い。 凹凸が目立ち,全体の分布よりも部分的な違いに意識が向きがちである。

スタージェスの公式

階級の幅と数によりヒストグラムの形状は大きく変化してしまうが, 適切な階級の数を求めるための公式がいくつか知られている。 スタージェスの公式(Sturges' rule)は二項分布を前提とするものである。 標本の大きさが n,階級の数が k のとき, スタージェスの公式によると,k は \[ k = 1+\log_2 n \tag{1} \] である。一般にはこの値は整数でないので,端数を切り上げて使う。

この公式の根拠

度数分布が次の表のようになるとき,この分布は二項分布 B(k−1, 0.5) である。 \[ \begin{array}{cc} \text{Value} & \text{Frequency} \\ 0 & \displaystyle\binom{k-1}{0} \\ 1 & \displaystyle\binom{k-1}{1} \\ \vdots & \vdots \\ k-1 & \displaystyle\binom{k-1}{k-1} \end{array} \] 二項定理から度数の合計が \[ n=\binom{k-1}{0}+\binom{k-1}{1}+ \dots +\binom{k-1}{k-1}=2^{k-1} \] となるので, この分布において階級の数は k,標本の大きさは n=2k−1 である。 n=2k−1 を変形するとスタージェスの公式が得られる。 \[ k=1+\log_2 n \] 標本の分布が二項分布に類似しているとき, スタージェスの公式を用いると二項分布に似たヒストグラムを書くことができる。 また外れ値があるときは,それを取り除いたほうが二項分布に似せることができるので, 外れ値を取り除いてからスタージェスの公式を用いるとよい。

n=100 の場合で,スタージェスの公式を用いると \[ k = 1+\log_2 100 \] であるが \[ 6=\log_2 64 < \log_2 100 < \log_2 128=7 \] なので 7 < k < 8 の範囲にある。 端数を切り上げて k=8 となる。

平方根選択

スタージェスの公式のほかにも,同じ目的の公式がいくつか知られている。 もっとも単純なものとして平方根選択(square root choice method)がある。 標本の大きさが n,階級の数が k のとき, 平方根選択を用いると,k は \[ k = \sqrt{n} \tag{3} \] である。 たとえば n=100 なら階級の数を k=10 にすればよい。

同一母集団から取った標本からヒストグラムを作ると, 異なる大きさの標本でも,相似なヒストグラムができると考えられる。 標本の大きさが n 倍になればヒストグラム全体の面積が n 倍になるので, 階級の数と度数がそれぞれ n1/2(nの平方根)倍となるようにすればよい。 よって,階級の数 k が n1/2 に比例するようにすれば, 標本の大きさによらずヒストグラムを相似にできると考えられる。

補足/スタージェスの公式の変形

底の変換公式から log2 n = log10 n/log10 2 = 3.322 × log10 n と変形できる。 多くの書籍でスタージェスの公式は \[ k=1+3.322 \times \log_{10} n \tag{2} \] の形で書かれている。 n=50 の場合でこの形の公式を用いると \[ k=1+3.322 \times \log_{10} 50=1+3.322 \times 1.699=5.644 \] 端数を切り上げて k=6 となる。 しかし log10 n が手計算や通常の電卓で求められないこと, 整数値の k を求めるだけなのに 3.322 という数値を用いなければならないことから, この形の公式は使いにくい。

各書籍の比較

統計学について書かれた書籍のうち,スタージェスの公式にふれているものは多くない。 公式(1)なら暗算でもできるが,公式(2)では計算機か対数表が必要になる。 各書籍に書かれている公式の形が, 「(1)のみ」,「(1)と(2)の両方」,「(2)のみ」であるものに分ける。

「(1)のみ」の書籍では次のように書かれている。 \[ k = 1+\log_2 n \]

「統計学(ミネルヴァ書房)978-4-623-05235-6
「よくわかる統計学 第2版 1 基礎編(ミネルヴァ書房)978-4-623-06111-2

「(1)と(2)の両方」の書籍では次のように書かれている。 \[ k = 1+\log_2 n = 1+\frac{\log_{10} n}{\log_{10} 2} \] ただし「(1)と(2)の両方」に分類されていても,実際に計算するときは(2)の形を使うので, 「(2)のみ」とほとんど変わらない。

「統計学入門(東京大学出版会)978-4-13-042065-5
「確率統計序論 第2版(東海大学出版会)978-4-486-01937-4
「スッキリわかる確率統計(近代科学社)978-4-7649-0483-5

「(2)のみ」の書籍では次のように書かれている。 \[ k = 1+3.322 \times \log_{10} n \]

「ゼロから学ぶ統計解析(講談社)978-4-06-154656-1
「例題で学ぶ初歩からの統計学 第2版(日本評論社)978-4-535-55790-1
「統計学 改訂版(有斐閣)978-4-641-05380-9
「基本統計学 第4版(有斐閣)978-4-641-16455-0
「入門統計学 新版(有斐閣)978-4-641-18374-2
「統計学 データから現実をさぐる(内田老鶴圃)978-4-7536-0114-1

最後のページです

1 2 3 4 Home

2016.8.8 作成 / 2016.8.16 更新

Home › 度数分布