1. 幹葉図
2. 度数分布・相対度数分布
3. 累積度数分布・累積相対度数分布
4. 階級の数
次の100個の数値の分布を調べる。
61 51 75 67 55
43 57 59 63 65
63 51 57 51 65
37 59 49 69 59
63 65 63 41 71
57 77 57 49 63
69 69 67 51 51
59 49 57 45 81
67 59 63 73 59
63 47 53 59 41
69 59 57 45 63
63 61 71 65 53
63 83 69 35 69
51 55 41 79 41
49 59 59 65 57
55 59 45 57 55
69 59 79 73 79
63 57 59 35 53
63 67 71 79 51
55 69 61 61 57
上位の桁のとなりに下位の桁を整列させた図のことを幹葉図(みきはず; Stem-and-leaf diagram)という。 通常は最下位の桁(一の位)を「葉」,最下位より上位の桁(十の位から上位)を「幹」とすることが多い。 次の表ははじめの10個まで書きすすめたものである。
幹 | 葉 | |
3 | │ | |
4 | │ | 3 |
5 | │ | 1579 |
6 | │ | 1735 |
7 | │ | 5 |
8 | │ |
100個すべてが書けたら,一の位を並べ替えておく。 面倒なら並べ替えの手順は省略してもかまわない。 幹葉図によって大まかな分布がわかり, 度数分布表とヒストグラムを兼ね備えたような表現が得られる。
幹 | 葉 | |
3 | │ | 557 |
4 | │ | 1111355579999 |
5 | │ | 11111113335555577777777779999999999999 |
6 | │ | 111133333333333355555777799999999 |
7 | │ | 11133579999 |
8 | │ | 13 |
次のページへ
1. 幹葉図
2. 度数分布・相対度数分布
3. 累積度数分布・累積相対度数分布
4. 階級の数
次の100個の数値をもとに度数分布表を作り,分布を調べよう。
61 51 75 67 55
43 57 59 63 65
63 51 57 51 65
37 59 49 69 59
63 65 63 41 71
57 77 57 49 63
69 69 67 51 51
59 49 57 45 81
67 59 63 73 59
63 47 53 59 41
69 59 57 45 63
63 61 71 65 53
63 83 69 35 69
51 55 41 79 41
49 59 59 65 57
55 59 45 57 55
69 59 79 73 79
63 57 59 35 53
63 67 71 79 51
55 69 61 61 57
与えられた数値の最大値と最小値の間を適当な区間に分ける。 その区間のことを階級または級(class)という。 すべての数値は必ずどれか一つの階級に含まれるようにする。 階級は「~~以上~~未満」または「~~超~~以下」のどちらかの形式に統一しておく。
階級の上限値から下限値を引いた値のことを階級の幅または級間隔という。 階級の幅はどの階級も同じにすることが多い。 階級の上限値と下限値の中間の値(平均値)のことを階級値または級中値(あるいは級中央値または級代表値とも)という。
そして,階級に含まれる数値の個数のことを度数または頻度(frequency)という。 度数分布表とは各々の階級に対する度数をまとめた表のことである。
階級を32から8ごとに区切ると,次のような度数分布表ができる。 階級値は省略してもかまわない。
階級 | 階級値 | 度数 |
32 – 40 | 36 | 3 |
40 – 48 | 44 | 9 |
48 – 56 | 52 | 19 |
56 – 64 | 60 | 39 |
64 – 72 | 68 | 20 |
72 – 80 | 76 | 8 |
80 – 88 | 84 | 2 |
合計 | – | 100 |
度数を度数の合計で割った値のことを相対度数(relative frequency)という。 相対度数は,全データの中でその度数の占める割合を表している。 相対度数の合計は常に1に等しい。
階級 | 階級値 | 相対度数 |
32 – 40 | 36 | 0.03 |
40 – 48 | 44 | 0.09 |
48 – 56 | 52 | 0.19 |
56 – 64 | 60 | 0.39 |
64 – 72 | 68 | 0.20 |
72 – 80 | 76 | 0.08 |
80 – 88 | 84 | 0.02 |
合計 | – | 1.00 |
度数分布表から作った棒グラフのことを,ヒストグラムまたは柱状図(histogram)という。 ヒストグラムでは一つの階級を一つの長方形で表すが, 長方形の幅が階級の幅に,長方形の面積が度数に比例するように書く。 特に階級の幅が等しいときは,長方形の高さが度数に比例する。
下左の図は度数分布表から作ったヒストグラム,下右の図は相対度数分布表から作ったヒストグラムである。
ヒストグラムにおいて,各々の長方形の頂上の点を線分でつないでできるグラフのことを, 度数折れ線または度数分布多角形という。 度数折れ線では,横軸の値は階級値を用いる。 また最小階級の左隣りと最大階級の右隣りにも度数0の階級があると考えて, その点にも折れ線をつないでおく。
下左の図は度数分布表から作った度数折れ線,下右の図は相対度数分布表から作った度数折れ線である。 度数折れ線はヒストグラムのかわりに用いることができる。
次のページへ
1. 幹葉図
2. 度数分布・相対度数分布
3. 累積度数分布・累積相対度数分布
4. 階級の数
最小階級の度数からその階級の度数までの合計のことを累積度数または累積頻度(cumulative frequency)という。 累積度数分布表とは各々の階級までの累積度数をまとめた表のことである。 最大階級の累積度数は常に度数の合計に等しい。
階級 | 度数 | 累積度数 |
32 – 40 | 3 | 3 |
40 – 48 | 9 | 12 |
48 – 56 | 19 | 31 |
56 – 64 | 39 | 70 |
64 – 72 | 20 | 90 |
72 – 80 | 8 | 98 |
80 – 88 | 2 | 100 |
合計 | 100 | – |
最小階級の相対度数からその階級の相対度数までの合計のことを累積相対度数または累積相対頻度(cumulative relative frequency)という。 最大階級の累積相対度数は常に1に等しい。
階級 | 相対度数 | 累積相対度数 |
32 – 40 | 0.03 | 0.03 |
40 – 48 | 0.09 | 0.12 |
48 – 56 | 0.19 | 0.31 |
56 – 64 | 0.39 | 0.70 |
64 – 72 | 0.20 | 0.90 |
72 – 80 | 0.08 | 0.98 |
80 – 88 | 0.02 | 1.00 |
合計 | 1.00 | – |
横軸の値を階級の上限値,縦軸の値を累積度数とする各点を線分でつないでできるグラフのことを, 累積度数折れ線という。 最小階級の下限値にも折れ線をつないでおく。
下左の図は累積度数分布表から作った累積度数折れ線,下右の図は累積相対度数分布表から作った累積度数折れ線である。 なお,累積度数を図に表すときはヒストグラムより折れ線が適している。
次のページへ
1. 幹葉図
2. 度数分布・相対度数分布
3. 累積度数分布・累積相対度数分布
4. 階級の数
同一のデータから階級を変えて度数分布表を作る。 はじめの表は,階級の幅を8とした場合の度数分布表である。
階級 | 度数 |
32 – 40 | 3 |
40 – 48 | 9 |
48 – 56 | 19 |
56 – 64 | 39 |
64 – 72 | 20 |
72 – 80 | 8 |
80 – 88 | 2 |
2番目の表は階級の幅を拡大し,16とした場合の度数分布表である。
階級 | 度数 |
32 – 48 | 12 |
48 – 64 | 58 |
64 – 80 | 28 |
80 – 96 | 2 |
3番目の表は階級の幅を縮小し,4とした場合の度数分布表である。
階級 | 度数 |
32 – 36 | 2 |
36 – 40 | 1 |
40 – 44 | 5 |
44 – 48 | 4 |
48 – 52 | 11 |
52 – 56 | 8 |
56 – 60 | 23 |
60 – 64 | 16 |
64 – 68 | 9 |
68 – 72 | 11 |
72 – 76 | 3 |
76 – 80 | 5 |
80 – 84 | 2 |
上段のヒストグラムははじめの表から作ったもので,この図を基準に考える。 下段左のヒストグラムは2番目の表から,下段右のヒストグラムは3番目の表から作ったものである。
2番目(下段左)のヒストグラムは階級の幅が広く,階級の数が少ない。 階級の数を減らしすぎたために情報量が減ってしまい,細かな分布が読み取れなくなっている。 反対に,3番目(下段右)のヒストグラムは階級の幅が狭く,階級の数が多い。 凹凸が目立ち,全体の分布よりも部分的な違いに意識が向きがちである。
階級の幅と数によりヒストグラムの形状は大きく変化してしまうが, 適切な階級の数を求めるための公式がいくつか知られている。 スタージェスの公式(Sturges' rule)は二項分布を前提とするものである。 標本の大きさが n,階級の数が k のとき, スタージェスの公式によると,k は \[ k = 1+\log_2 n \tag{1} \] である。一般にはこの値は整数でないので,端数を切り上げて使う。
度数分布が次の表のようになるとき,この分布は二項分布 B(k−1, 0.5) である。 \[ \begin{array}{cc} \text{Value} & \text{Frequency} \\ 0 & \displaystyle\binom{k-1}{0} \\ 1 & \displaystyle\binom{k-1}{1} \\ \vdots & \vdots \\ k-1 & \displaystyle\binom{k-1}{k-1} \end{array} \] 二項定理から度数の合計が \[ n=\binom{k-1}{0}+\binom{k-1}{1}+ \dots +\binom{k-1}{k-1}=2^{k-1} \] となるので, この分布において階級の数は k,標本の大きさは n=2k−1 である。 n=2k−1 を変形するとスタージェスの公式が得られる。 \[ k=1+\log_2 n \] 標本の分布が二項分布に類似しているとき, スタージェスの公式を用いると二項分布に似たヒストグラムを書くことができる。 また外れ値があるときは,それを取り除いたほうが二項分布に似せることができるので, 外れ値を取り除いてからスタージェスの公式を用いるとよい。
n=100 の場合で,スタージェスの公式を用いると \[ k = 1+\log_2 100 \] であるが \[ 6=\log_2 64 < \log_2 100 < \log_2 128=7 \] なので 7 < k < 8 の範囲にある。 端数を切り上げて k=8 となる。
スタージェスの公式のほかにも,同じ目的の公式がいくつか知られている。 もっとも単純なものとして平方根選択(square root choice method)がある。 標本の大きさが n,階級の数が k のとき, 平方根選択を用いると,k は \[ k = \sqrt{n} \tag{3} \] である。 たとえば n=100 なら階級の数を k=10 にすればよい。
同一母集団から取った標本からヒストグラムを作ると, 異なる大きさの標本でも,相似なヒストグラムができると考えられる。 標本の大きさが n 倍になればヒストグラム全体の面積が n 倍になるので, 階級の数と度数がそれぞれ n1/2(nの平方根)倍となるようにすればよい。 よって,階級の数 k が n1/2 に比例するようにすれば, 標本の大きさによらずヒストグラムを相似にできると考えられる。
底の変換公式から log2 n = log10 n/log10 2 = 3.322 × log10 n と変形できる。 多くの書籍でスタージェスの公式は \[ k=1+3.322 \times \log_{10} n \tag{2} \] の形で書かれている。 n=50 の場合でこの形の公式を用いると \[ k=1+3.322 \times \log_{10} 50=1+3.322 \times 1.699=5.644 \] 端数を切り上げて k=6 となる。 しかし log10 n が手計算や通常の電卓で求められないこと, 整数値の k を求めるだけなのに 3.322 という数値を用いなければならないことから, この形の公式は使いにくい。
統計学について書かれた書籍のうち,スタージェスの公式にふれているものは多くない。 公式(1)なら暗算でもできるが,公式(2)では計算機か対数表が必要になる。 各書籍に書かれている公式の形が, 「(1)のみ」,「(1)と(2)の両方」,「(2)のみ」であるものに分ける。
「(1)のみ」の書籍では次のように書かれている。 \[ k = 1+\log_2 n \]
「統計学(ミネルヴァ書房)978-4-623-05235-6」
「よくわかる統計学 第2版 1 基礎編(ミネルヴァ書房)978-4-623-06111-2」
「(1)と(2)の両方」の書籍では次のように書かれている。 \[ k = 1+\log_2 n = 1+\frac{\log_{10} n}{\log_{10} 2} \] ただし「(1)と(2)の両方」に分類されていても,実際に計算するときは(2)の形を使うので, 「(2)のみ」とほとんど変わらない。
「統計学入門(東京大学出版会)978-4-13-042065-5」
「確率統計序論 第2版(東海大学出版会)978-4-486-01937-4」
「スッキリわかる確率統計(近代科学社)978-4-7649-0483-5」
「(2)のみ」の書籍では次のように書かれている。 \[ k = 1+3.322 \times \log_{10} n \]
「ゼロから学ぶ統計解析(講談社)978-4-06-154656-1」
「例題で学ぶ初歩からの統計学 第2版(日本評論社)978-4-535-55790-1」
「統計学 改訂版(有斐閣)978-4-641-05380-9」
「基本統計学 第4版(有斐閣)978-4-641-16455-0」
「入門統計学 新版(有斐閣)978-4-641-18374-2」
「統計学 データから現実をさぐる(内田老鶴圃)978-4-7536-0114-1」
最後のページです
2016.8.8 作成 / 2016.8.16 更新
Home › 度数分布