Home逆分布関数四分位数統計ソフトEXCELAppendix

1. 中央値

1. 中央値
2. 高校の四分位数
3. 箱ひげ図
4. 文科省の判断について

中央値とは

大きさが N の標本 {xi} があり,各々の数値は昇順に(小さいほうから順に)並べられているとする。 \[ x_1 \le x_2 \le \dots \le x_N \] 中央の順位(中位)をもつ数値のことを中央値(または中位数またはメジアン)といい,Me と表す。 中央の順位を r とすると,r は \[ r = \frac{N+1}{2} \tag{1} \] と表せる。 N が奇数のときは r が整数となるから,中央値を Me = xr と定める。 \[ \mathit{Me}=x_r \tag{2} \] N が偶数のときは r は整数にならないが,r−0.5 と r+0.5 が整数となるから,中央値を xr−0.5 と xr+0.5 の平均値によって定める。 \[ \mathit{Me}=\frac{x_{r-0.5}+x_{r+0.5}}{2} \tag{3} \]

中央値の例

中位が整数となる例

標本 {xi} = {0, 10, 30, 40, 50, 60, 80, 90, 100} では,大きさが N = 9 なので中央の順位が整数となる。 このとき中央値は x5 である。 \begin{align} r &= \frac{N+1}{2}=5, & \mathit{Me} &= x_5 = 50 \end{align}

中位が整数とならない例

標本 {yi} = {0, 10, 30, 40, 50, 60, 80, 90} では,大きさが N = 8 なので中央の順位が整数とならない。 このとき中央値は y4 と y5 の平均値である。 \begin{align} r &= \frac{N+1}{2}=4.5, & \mathit{Me} &= \frac{y_4+y_5}{2} = 45 \end{align}

順位を用いる代表値

標本の各値にもっとも近い数値のことを代表値という。 平均値(算術平均値)も代表値の一つである。 標本 {xi} の平均値を \(\bar{x}\) と表す。 \[ \bar{x}=\frac{x_1+x_2+\dots+x_N}{N} \tag{4} \] 代表値として中央値や最頻値が用いられることもある。 利用目的に合わせて適切な代表値を選べばよい。

次のページへ

1 2 3 4 Next

2. 高校の四分位数

1. 中央値
2. 高校の四分位数
3. 箱ひげ図
4. 文科省の判断について

四分位数とは

大きさ N の標本 {xi} は昇順に並べられているとする。 \[ x_1 \le x_2 \le \dots \le x_N \] 標本を等しい大きさの四群に分けるような境界値のことを四分位数という。 小さいほうから 1/4 にあたる順位をもつ数値のことを第1四分位数 Q1, 小さいほうから 3/4 にあたる順位をもつ数値のことを第3四分位数 Q3 という。 第2四分位数 Q2 は中央値 Me に等しい。

四分位数の求め方

標本の大きさが偶数のとき

標本 {xi} の大きさ N は偶数とし,N = 2m とおく。 標本 {xi} を半分に分け,小さいほうを下組,大きいほうを上組とする。 \begin{align} & \{x_1,\; x_2,\; \dots,\; x_m\}, && \{x_{m+1},\; x_{m+2},\; \dots,\; x_{2m}\} \tag{1} \end{align} このように分けた下組の中央値を第1四分位数 Q1, 上組の中央値を第3四分位数 Q3 とする。

標本の大きさが奇数のとき

標本 {xi} の大きさ N は奇数とし,N = 2m−1 とおく。 標本 {xi} を半分に分け,小さいほうを下組,大きいほうを上組とする。 \begin{align} & \{x_1,\; x_2,\; \dots,\; x_{m-1}\}, && \{x_{m+1},\; x_{m+2},\; \dots,\; x_{2m-1}\} \tag{2} \end{align} 中央値 xm はどちらの組にも属さない。 このように分けた下組の中央値を第1四分位数 Q1, 上組の中央値を第3四分位数 Q3 とする。

標本の大きさが偶数のとき

この方法で標本 {yi} = {0, 10, 30, 40, 50, 60, 80, 90} の四分位数を求めよう。 大きさは N = 8 である。 下組と上組が \begin{align} & \{0, 10, 30, 40\}, && \{50, 60, 80, 90\} \end{align} と分けられるから, 第1四分位数,中央値,第3四分位数は次の値になる。 \begin{align} Q_1 &= 20, & Q_2 &= 45, & Q_3 &= 70 \end{align}

標本の大きさが奇数のとき

この方法で標本 {xi} = {0, 10, 30, 40, 50, 60, 80, 90, 100} の四分位数求めよう。 大きさは N = 9 である。 下組と上組が \begin{align} & \{0, 10, 30, 40\} && \{60, 80, 90, 100\} \end{align} と分けられ,中央値 50 はどちらにも属さない。 よって第1四分位数,中央値,第3四分位数は次の値になる。 \begin{align} Q_1 &= 20, & Q_2 &= 50, & Q_3 &= 85 \end{align}

順位を用いる散布度

標本の各値の散らばりの程度を表す数値を散布度という。 代表値として平均値を選んだ場合は,散布度として標準偏差等が選ばれる。 代表値として中央値を選んだ場合は,散布度として四分位範囲等が選ばれる。

範囲

最大値から最小値を引いた値のことを範囲という。 標本に外れ値が含まれていると範囲の値はこれに大きく影響を受けるため, 散布度として範囲を用いるのは避けたほうがよい。 範囲でなく四分位範囲を用いると,外れ値からの影響を減らせる。

四分位範囲・四分位偏差

四分位範囲(IQR)とは,第3四分位数から第1四分位数を引いた値のことである。 四分位範囲の半分の値のことを四分位偏差という。 \begin{align} & \text{四分位範囲} = \mathrm{IQR} = Q_3-Q_1 \\ & \text{四分位偏差} = \mathrm{IQR} \div 2 = (Q_3-Q_1) \div 2 \end{align} 四分位範囲等は散布度として用いることができる。 標準偏差と四分位偏差はどちらも散布度だが,計算方法が異なるため,その値は一致しない。

次のページへ

1 2 3 4 Next

3. 箱ひげ図

1. 中央値
2. 高校の四分位数
3. 箱ひげ図
4. 文科省の判断について

箱ひげ図とは

箱ひげ図とは,主に四分位数を書き込んだ図のことで,データのおおまかな分布をみることができる。 箱の両端は第1四分位数 Q1 と第3四分位数 Q3 で,箱を区切る線は中央値 Me である。 箱の幅は四分位範囲 IQR = Q3−Q1 となる。 高校で用いる箱ひげ図の場合は,箱から最小値までと箱から最大値まで線を伸ばす。 図に平均値を書き込むこともある。

├─+├─────┤
┌─┬─
├────+──┤
└─┴─
 
−50510

上側の箱ひげ図は,標本 {0, 1, 2, 2, 2, 2, 3, 3, 3, 3, 5, 9, 10, 11} から作成されたもので, 最小値 = 0,Q1 = 2,Me = 3,Q3 = 5,最大値 = 11 で,平均値は 4 である。 下側の箱ひげ図は,標本 {−7, −5, −3, −2, −1, −1, 0, 0, 1, 1, 2, 3, 5, 7} から作成されたもので, 最小値 = −7,Q1 = −2,Me = 0,Q3 = 2,最大値 = 7 で,平均値は 0 である。 ふたつの箱ひげ図で表される標本の分布を比べると, 上側の分布のほうが中央値(代表値のひとつ)が大きく,四分位範囲(散布度のひとつ)が小さいこと, 上側の分布は歪んでいる(歪度が正)が下側の分布はほぼ歪んでいない(歪度がほぼ0)こと等が読み取れる。

次のページへ

1 2 3 4 Next

4. 文科省の判断について

1. 中央値
2. 高校の四分位数
3. 箱ひげ図
4. 文科省の判断について

高校で教えられる四分位数

2012年度から高等学校で四分位数が教えられるようになった。 数研出版数研通信には文部科学省による定義が掲載されている。

データを小さい方から大きい方まで並べてメジアンをとる。そのメジアンを落として,メジアンより小さいデータのまたメジアンをとってそれを第一四分位数とする。メジアンより大きいデータのまたメジアンをとってそれを第三四分位数とする。

高校で教えられる四分位数は,比較的よく用いられるEXCELや他の統計ソフトのものと異なり, 中央値の計算を繰り返して求めるようになっている。 この量は厳密にはヒンジとよばれる。 EXCELや他の統計ソフトの四分位数を求めるには,内分点の計算を繰り返す必要があり面倒なので, 高校ではより単純なヒンジのほうを取り入れることになったのだろう。

コンピュータの利用

高校での学習にあたってコンピュータの利用,特に表計算ソフトの利用は推奨されている。 ところが高校で教えられている四分位数はEXCEL等のソフトで求めることはできないのである。 少なくとも標本の大きさが偶数のときは,EXCELの出す結果は高校で教えられているものとは異なる。 実はEXCELだけでなく他の統計ソフトを使った場合も同様である。 今のところ,高校で教えられる四分位数を求めることのできる統計ソフトは存在しないと思われる。

ヒンジ(四分位数)にはもうひとつの定義があり, 大きさが奇数の標本において下組にも上組にも中央値を含めるようにするヒンジもある。 これはTukeyのヒンジとよばれ,このヒンジ(四分位数)を求めることのできる統計ソフトは多数存在している。 文科省が何故 Tukey のヒンジのほうを採用しなかったのか,とても悔やまれる。

四分位階級

四分位数とは,標本全体を等しい大きさの四群に分ける境界値のことである。 高校で教えられる四分位数を利用すると,標本を重複のない等しい大きさの四群に分けることができる。 もとの標本を中央値を境界として下組と上組に分けると,中央値はどちらの組にも属さないから,重複のない二群(下組と上組)に分けられる。 同じ操作を繰り返すと,下組が重複のない二群に,上組も重複のない二群に分けられ,どの群も大きさが等しい。 高校で教えられる四分位数を用いて,重複のない等しい大きさの四群に分けることができる。

標本数が4で割り切れるとき(N = 4m),たとえば N = 8 のときは次の四群に分けられる。 \[ \begin{matrix} \{ \text{A},\; \text{A} \}, & \{ \text{B},\; \text{B} \}, & \{ \text{C},\; \text{C} \}, & \{ \text{D},\; \text{D} \} \end{matrix} \] 標本数を4で割った余りが1のとき( N = 4m+1),たとえば N = 9 のときは次の四群に分けられる。 境界値 Q2 は中央値で,それは群に含めない。 \[ \begin{matrix} \{ \text{A},\; \text{A} \}, & \{ \text{B},\; \text{B} \}, & Q_2, & \{ \text{C},\; \text{C} \}, & \{ \text{D},\; \text{D} \} \end{matrix} \] 標本数を4で割った余りが2のとき(N = 4m+2),たとえば N = 10 のときは次の四群に分けられる。 境界値 Q1,Q3 は四分位数で,それらは群に含めない。 \[ \begin{matrix} \{ \text{A},\; \text{A} \}, & Q_1, & \{ \text{B},\; \text{B} \}, & \{ \text{C},\; \text{C} \}, & Q_3, & \{ \text{D},\; \text{D} \} \end{matrix} \] 標本数を4で割った余りが3のとき(N = 4m+3),たとえば N = 11 のときは次の四群に分けられる。 境界値 Q1,Q2,Q3 は中央値と四分位数で,それらは群に含めない。 \[ \begin{matrix} \{ \text{A},\; \text{A} \}, & Q_1, & \{ \text{B},\; \text{B} \}, & Q_2, & \{ \text{C},\; \text{C} \}, & Q_3, & \{ \text{D},\; \text{D} \} \end{matrix} \] 上のどの場合においても,四分位数によって大きさが m の四群に分けられる。 昇順に並べた標本を等しい大きさに分けた四群のことを四分位階級といい, 小さいほうから順に第I四分位階級,第II四分位階級,第III四分位階級,第IV四分位階級とする。 四分位階級は所得別の統計に利用されている。 高校で教えられる四分位数は既存のソフトウェアで求めることができないという弱点をもつが, 一方で,四分位階級を得るのに最適の方法であるという利点もある。 しかし学校教育で四分位階級が扱われることはなく,せっかくの利点が生かせていない。

外部リンク

最後のページです

1 2 3 4

2012.12.12 作成 / 2015.12.27 更新

Home › 四分位数・ヒンジ