Home逆分布関数四分位数統計ソフトEXCELAppendix

1. PERCENTILE.INCで代用する方法

1. PERCENTILE.INCで代用する方法
2. 奇妙な箱ひげ図
3. 五分位階級

統計ソフトの分位数

RとOctaveでは9種,Mapleでは8種,SASでは5種の分位数が定義されている。 MathematicaではQuantileの規定値はR-1だが,QuartilesはR-5になっている。 各ソフトウェアで規定値の分位数を求めると,R-6またはR-7となるものが多い。

Method分位\(r\)分位数\(Q\)規定値
R-1S-3\(1/2+Np\)\(x_{\lceil r-1/2 \rceil}\)Mathematica
R-2S-5\(1/2+Np\)\((x_{\lceil r-1/2 \rceil}+x_{\lfloor r+1/2 \rfloor})/2\)SAS
R-3S-2\(Np\)\(x_{\lfloor r \rceil}\)
M-1\(1/2+Np\)\(x_{\lfloor r+1/2 \rfloor}\)
M-2\(Np\)\(x_{\lfloor r+1/2 \rfloor}\)
R-4M-3S-1\(Np\)線形補間
R-5M-4\(1/2+Np\)線形補間GNU Octave
R-6M-5S-4\((N+1)p\)線形補間Minitab, SPSS, JMP, MATLAB
R-7M-6\(1+(N-1)p\)線形補間S, R, Maxima, Excel
R-8M-7\(1/3+(N+1/3)p\)線形補間Maple
R-9M-8\(3/8+(N+1/4)p\)線形補間

線形補間は次の式による。 \[ Q=x_{\lfloor r \rfloor}+(x_{\lceil r \rceil}-x_{\lfloor r \rfloor})(r-\lfloor r \rfloor) \]

分位数\(Q\)を率\(p\)の関数とみた場合に,関数 \(Q=Q(p)\) が連続になるものとならないものがある。 前半のR-1からR-3,M-1からM-2では\(Q(p)\)は不連続で,そのグラフは各データ点を通る階段状の水平線で表される。 不連続点は分位\(r\)が半整数となるような\(p\)にある。

後半のR-4からR-9では\(Q(p)\)は連続で,そのグラフは各データ点をつないだ折れ線で表される。

統計ソフトのヒンジ

一部のソフトウェアで五数要約を求めると,ヒンジになることがある。 その場合のヒンジはTukeyのヒンジであり, 偶数標本ではR-5の分位数を,奇数標本ではR-7の分位数を求める。

高等学校で教えられている四分位数は,これらのソフトウェアで求めることはできない。

ヒンジ標本数分位\(r\)分位数\(Q\)
R-5 Tukey偶数\(1/2+Np\)\((x_{\lceil r-1/2 \rceil}+x_{\lfloor r+1/2 \rfloor})/2\) または線形補間
R-7 Tukey奇数\(1+(N-1)p\)\((x_{\lceil r-1/2 \rceil}+x_{\lfloor r+1/2 \rfloor})/2\) または線形補間
R-5 高校数学偶数\(1/2+Np\)\((x_{\lceil r-1/2 \rceil}+x_{\lfloor r+1/2 \rfloor})/2\) または線形補間
R-6 高校数学奇数\((N+1)p\)\((x_{\lceil r-1/2 \rceil}+x_{\lfloor r+1/2 \rfloor})/2\) または線形補間

PERCENTILE関数で分位数(不連続)を求める

ExcelのPERCENTILE関数(Excel2010以降のPERCENTILE.INC関数)はR-7の百分位数(分位数)を求める関数である。 ここではExcelのPERCENTILE関数を利用して,他の分位数を求めよう。 COUNT関数は標本数を得るために, MAX関数とMIN関数は,分位を\(1\)以上\(N\)以下に収めるために使用した。 R-1からR-3,M-1からM-2では,INT関数を種々の丸めをするために使用した。

Excel2010以降のPERCENTILE.EXC関数では,分位が\(1\)以上\(N\)以下に収まらないとき#NUM!エラーを返す。 PERCENTILE.EXC関数と同じように#NUM!エラーが返ってもいいなら MAX(0,MIN(1, と末尾の )) は省略できる。

分位数を求める数値が範囲にあるときのに対応する分位数は次のようにして求めることができる。 には0から1までの数を指定でき,四分位数を求める場合は\(1/4\),\(1/2\),\(3/4\)とする。

R-1: Mathematica

分位を\(r=1/2+Np\)によって,分位数を\(Q=x_{\lceil r-0.5 \rceil}\)によって求める。 偶数標本のとき,この方法で求めた0.5分位数は,一般的な方法で求めた中央値と一致しない。

R-1=PERCENTILE(範囲,MAX(0,MIN(1,(−INT(−*COUNT(範囲))−1)/(COUNT(範囲)−1))))
R-2: SAS

分位を\(r=1/2+Np\)によって,分位数を\(Q=(x_{\lceil r-0.5 \rceil}+x_{\lfloor r+0.5 \rfloor})/2\)によって求める。 この方法で求めた0.5分位数は,一般的な方法で求めた中央値と一致する。

分位=AVERAGE(INT(*COUNT(範囲)+1),−INT(−*COUNT(範囲)))
R-2=PERCENTILE(範囲,MAX(0,MIN(1,(分位−1)/(COUNT(範囲)−1))))

この方法は\(\mathrm{Pr}\{X \le Q\} \ge p\),\(\mathrm{Pr}\{X \ge Q\} \ge 1-p\)を定義式とする分位数である。 また,この方法で求めた四分位数は2種のヒンジの平均値とは一致しない。

R-3

分位を\(r=Np\)によって,分位数を\(Q=x_{\lfloor r \rceil}\)によって求める。 \(\lfloor r \rceil\)は INT(0.25+\(r\)/2)−INT(0.25−\(r\)/2) を利用した。 この方法の0.5分位は\((N+1)/2\)にならない。

分位=INT(0.25+*COUNT(範囲)/2)−INT(0.25−*COUNT(範囲)/2)
R-3=PERCENTILE(範囲,MAX(0,MIN(1,(分位−1)/(COUNT(範囲)−1))))
M-1

分位を\(r=1/2+Np\)によって,分位数を\(Q=x_{\lfloor r+0.5 \rfloor}\)によって求める。 偶数標本のとき,この方法で求めた0.5分位数は,一般的な方法で求めた中央値と一致しない。

M-1=PERCENTILE(範囲,MAX(0,MIN(1,INT(*COUNT(範囲))/(COUNT(範囲)−1))))
M-2

分位を\(r=Np\)によって,分位数を\(Q=x_{\lfloor r+0.5 \rfloor}\)によって求める。 この方法の0.5分位は\((N+1)/2\)にならない。

M-2=PERCENTILE(範囲,MAX(0,MIN(1,INT(*COUNT(範囲)−0.5)/(COUNT(範囲)−1))))

PERCENTILE関数で分位数(連続)を求める

分位数を求める数値が範囲にあるときのに対応する分位数は次のようにして求めることができる。 には0から1までの数を指定でき,四分位数を求める場合は\(1/4\),\(1/2\),\(3/4\)とする。

R-4: カリフォルニア法

分位を\(r=Np\)によって,分位数を線形補間によって求める。 この方法の0.5分位は\((N+1)/2\)にならない。 +(−1)/(COUNT(範囲)−1) の部分がPERCENTILE関数に合わせるための補正項になっている。

R-4=PERCENTILE(範囲,MAX(0,MIN(1,+(−1)/(COUNT(範囲)−1))))
R-5: 水文学者法 GNU Octave

分位を\(r=1/2+Np\)によって,分位数を線形補間によって求める。 +(−0.5)/(COUNT(範囲)−1) の部分がPERCENTILE関数に合わせるための補正項になっている。

R-5=PERCENTILE(範囲,MAX(0,MIN(1,+(−0.5)/(COUNT(範囲)−1))))

この方法で求めた四分位数は2種のヒンジの平均値と一致する。

R-6: ワイブル法 SPSS, Minitab

分位を\(r=(N+1)p\)によって,分位数を線形補間によって求める。 +2*(−0.5)/(COUNT(範囲)−1) の部分がPERCENTILE関数に合わせるための補正項になっている。

R-6=PERCENTILE(範囲,MAX(0,MIN(1,+2*(−0.5)/(COUNT(範囲)−1))))

この分位数はExcel2010以降の PERCENTILE.EXC(範囲,) によって補正項なしで求めることができる。

R-7: R, Excel

分位を\(r=1+(N-1)p\)によって,分位数を線形補間によって求める。 当然,PERCENTILE関数をそのまま利用できる。

R-7=PERCENTILE(範囲,)
R-8: Maple

分位を\(r=1/3+(N+1/3)p\)によって,分位数を線形補間によって求める。 +4/3*(−0.5)/(COUNT(範囲)−1) の部分がPERCENTILE関数に合わせるための補正項になっている。

R-8=PERCENTILE(範囲,MAX(0,MIN(1,+4/3*(−0.5)/(COUNT(範囲)−1))))
R-9

分位を\(r=3/8+(N+1/4)p\)によって,分位数を線形補間によって求める。 +5/4*(−0.5)/(COUNT(範囲)−1) の部分がPERCENTILE関数に合わせるための補正項になっている。

R-9=PERCENTILE(範囲,MAX(0,MIN(1,+5/4*(−0.5)/(COUNT(範囲)−1))))

PERCENTILE関数でヒンジを求める

IF関数やISEVEN関数を偶数の場合と奇数の場合の分位を切り替えるために使用した。

ヒンジを求める数値が範囲にあるときのに対応するヒンジは次のようにして求めることができる。 には,\(1/4\),\(1/2\),\(3/4\)を指定する。

R-5/R-7: Tukey のヒンジ

偶数標本ではR-5と同じ値に,奇数標本ではR-7と同じ値になる。 五数要約ではTukeyのヒンジが用いられることが多い。

=PERCENTILE(範囲,+(−0.5)/(COUNT(範囲)−1)*ISEVEN(COUNT(範囲)))

たとえば標本数が100(偶数)であることが分かっている場合は, 下側ヒンジQ1と上側ヒンジQ3が次のように表せる。

Q1=PERCENTILE(範囲,0.25−0.25/99)
Q3=PERCENTILE(範囲,0.75+0.25/99)

標本数が奇数なら PERCENTILE(範囲,) がそのまま使える。

Q1=PERCENTILE(範囲,0.25)
Q3=PERCENTILE(範囲,0.75)
R-5/R-6: Moore & McCabe のヒンジ

このヒンジは高校数学の四分位数と同じものである。 偶数標本ではR-5と同じ値に,奇数標本ではR-6と同じ値になる。 ここでは標本数は3以上であると仮定してMAXとMINを省略した。

=PERCENTILE(範囲,+(−0.5)/(COUNT(範囲)−1)*IF(ISEVEN(COUNT(範囲)),1,2))

たとえば標本数が100(偶数)であることが分かっている場合は, 下側ヒンジQ1と上側ヒンジQ3が次のように表せる。

Q1=PERCENTILE(範囲,0.25−0.25/99)
Q3=PERCENTILE(範囲,0.75+0.25/99)

標本数が105(奇数)なら次のようになる。 Excel2010の PERCENTILE.EXC(範囲,) を補正項なしで使ってもよい。

Q1=PERCENTILE(範囲,0.25−0.5/104)
Q3=PERCENTILE(範囲,0.75+0.5/104)

外部リンク

次のページへ

1 2 3 Next

2012.12.12 作成 / 2015.1.29 更新

2. 奇妙な箱ひげ図

1. PERCENTILE.INCで代用する方法
2. 奇妙な箱ひげ図
3. 五分位階級

五数要約とは

データの分布をみるために,最小値,第1四分位数,中央値,第3四分位数,最大値の5つの特性値を求めることを五数要約という。 五数要約の場合,四分位数という名称であってもヒンジであることが多い。 実際,R言語では quantile() で分位数を求めることができるが, 五数要約関数 fivenum() で得られる値はヒンジになっている。

箱ひげ図とは

箱ひげ図はデータの分布をみるための図で,第1四分位数,中央値,第3四分位数等が書き込まれる。 箱の両端は第1四分位数 Q1 と第3四分位数 Q3 で,箱を区切る線は中央値 Me である。 箱の幅は四分位範囲 IQR となる。

IQR = Q3 − Q1

箱から伸びる線の長さは最大で IQR の1.5倍までとする。 つまり値が小さいほうの端は Q1 − 1.5 IQR まで, 大きいほうの端は Q3 + 1.5 IQR までである。 箱の両端から 1.5 IQR を超えるデータ値を外れ値といい,1個ずつ図に書き込む。

┬─
├─├───┤
┴─
┌─┬─
├────────┤
└─┴─
 
−50510

上側の箱ひげ図では,Q1=1,Me=2,Q3=4,IQR=3 で,外れ値 10,11,12,13 をもつ。 最小値は0,最大値は13である。 下側の箱ひげ図では,Q1=−2,Me=0,Q3=2,IQR=4 で,外れ値をもたない。 最小値は−7,最大値は7である。

その他の書き方

第1四分位数・第3四分位数のかわりに,下側ヒンジ・上側ヒンジを用いる場合もある。箱の幅はヒンジ散布度になる。 また,箱の部分に平均値(算術平均値)を書き込むこともある。

箱から伸びる線の長さは 1.5 IQR までとすることが多い。箱の端から 1.5 IQR から 3 IQR の間だけ離れているものを軽度の外れ値, 箱の端から 3 IQR より離れているものを極端な外れ値という。 箱ひげ図には,軽度の外れ値と極端な外れ値で異なる記号を書き込む。

箱から伸びる線の長さを 1.5 IQR としないこともある。2パーセント値と98パーセント値まで線を伸ばしたり, 最小値と最大値まで伸ばすこともある。 高等学校の現行課程では,最小値と最大値まで線を伸ばし,外れ値を考えないことになっている。

箱ひげ図と標本数の関係

標本数が多すぎると,箱ひげ図を書くのが難しくなる。 たとえば,箱の両端から 1.5 IQR の長さの線を伸ばす場合は,外れ値が無数にできて図に書ききれなくなる。 あるいは箱の両端から最小値や最大値まで線を伸ばす場合は,極端に線が長くなったりする。 箱ひげ図は標本数があまり多くない場合に適している。

奇妙な箱ひげ図

Minitab News Letterには,奇妙な箱ひげ図の例が示されている。 大きさ6の標本 1, 9, 12, 14, 19, 79 についてMinitabの四分位数を求めると Q1=7, Q2=13, Q3=34 となる。 四分位範囲は IQR=27 で,1.5 IQR を超える外れ値は 79 のみである。 この標本において外れ値を除いた最大値は 19 であるが,その値は第3四分位数 34 より小さい。 次のような箱ひげ図ができる。

┌─┬──────
├─├──────────────────
└─┴──────
1713193479

箱の両端の値としてMinitabの四分位数(R-6の分位数)を用いる場合,標本数が4n+2で,かつQ3より大きいデータがすべて外れ値なら上のような奇妙な箱ひげ図になる可能性がある。 Excelの四分位数(R-7の分位数)を用いる場合,標本数が4nで,かつQ3より大きいデータがすべて外れ値なら上のような箱ひげ図になる可能性がある。 しかしこのような現象は外れ値を含んだ非常に小さい標本でなければ起こらないであろう。

箱の両端の値としてヒンジ(Tukeyのヒンジ,またはMoore & McCabeのヒンジ)を用いた場合は,上のような箱ひげ図はできない。

外部リンク

次のページへ

1 2 3 Next

2012.12.12 作成 / 2015.12.27 更新

3. 五分位階級

1. PERCENTILE.INCで代用する方法
2. 奇妙な箱ひげ図
3. 五分位階級

五分位階級とは

家計調査等においては,収入によって世帯を五つの群に分け,各項目の比較に用いられることがある。 収入の五分位を求めておき,第 I から第 V までの五分位階級を表のように定める。 最も収入の少ない群が第 I 五分位階級,最も収入の多い群が第 V 五分位階級となる。 各階級に含まれる世帯数はすべて等しい。

第 I 五分位階級最小値 — 第1五分位数
第 II 五分位階級第1五分位数 — 第2五分位数
第 III 五分位階級第2五分位数 — 第3五分位数
第 IV 五分位階級第3五分位数 — 第4五分位数
第 V 五分位階級第4五分位数 — 最大値

詳細な比較をするために十分位階級が用いられることもある。 大まかでよい場合は四分位階級等が用いられることもある。

五分位階級の境界値

全国の二人以上の世帯のうち勤労者世帯を,年間収入によって分けた五分位階級・十分位階級は次の通り。 五分位階級の境界値は第1から第4までの五分位数,十分位階級の境界値は第1から第9までの十分位数になる。 数値は2014年11月のものである。(総務省家計調査

五分位階級(万円)十分位階級(万円)
第 I0 − 441 第 I0 − 355
第 II355 − 441
第 II441 − 575 第 III441 − 512
第 IV512 − 575
第 III575 − 700 第 V575 − 635
第 VI635 − 700
第 IV700 − 902 第 VII700 − 793
第 VIII793 − 902
第 V902 − 第 IX902 − 1,100
第 X1,100 −

外部リンク

最後のページです

1 2 3

2012.12.12 作成 / 2015.1.23 更新

Home › 分位点への補遺