Home逆分布関数四分位数統計ソフトEXCELAppendix

1. 連続分布の分位数

1. 連続分布の分位数
2. 離散分布の分位数
3. 順序統計量

一般的な定義

\(X\)は離散または連続分布をもつ確率変数とする。\(Q\)が\(p\)分位数であるとは,次の条件を満たすことである。 \(\mathrm{Pr}\{\,\}\)は確率測度である。 \begin{align} & \mathrm{Pr}\{X \le Q\} \ge p && \mathrm{Pr}\{X \ge Q\} \ge 1-p \tag{1} \end{align} 余事象を考えれば次の条件と同値である。 \begin{align} & \mathrm{Pr}\{X < Q\} \le p && \mathrm{Pr}\{X > Q\} \le 1-p \end{align} \(X\)を連続確率変数とし,その累積分布関数が連続で単調増加ならば, \begin{align} & \mathrm{Pr}\{X \le Q\} \ge p \\ & \mathrm{Pr}\{X \le Q\} = \mathrm{Pr}\{X < Q\} \le p \end{align} となるから \[ \mathrm{Pr}\{X \le Q\} = p \] が成り立つ。 \(X\)の累積分布関数を\(F(t)=\mathrm{Pr}\{X \le t\}\)とすると\(F(Q)=p\)であるから, 分位数\(Q\)は\(F\)の逆関数で表せる。 \[ Q = F^{-1}(p) \tag{2} \] 離散分布とは異なり,通常の連続分布においては分位数はこの定義だけしかない。

次のページへ

1 2 3 Next

2. 離散分布の分位数

1. 連続分布の分位数
2. 離散分布の分位数
3. 順序統計量

一般的な定義

\(X\)は離散または連続分布をもつ確率変数とする。\(Q\)が\(p\)分位数であるとは,次の条件を満たすことである。 \(\mathrm{Pr}\{\,\}\)は確率測度である。 \begin{align} & \mathrm{Pr}\{X \le Q\} \ge p && \mathrm{Pr}\{X \ge Q\} \ge 1-p \tag{1} \end{align} 余事象を考えれば次の条件と同値である。 \begin{align} & \mathrm{Pr}\{X < Q\} \le p && \mathrm{Pr}\{X > Q\} \le 1-p \end{align} \(X\)を連続確率変数とし,その累積分布関数が連続で単調増加ならば, \begin{align} & \mathrm{Pr}\{X \le Q\} \ge p \\ & \mathrm{Pr}\{X \le Q\} = \mathrm{Pr}\{X < Q\} \le p \end{align} となるから \[ \mathrm{Pr}\{X \le Q\} = p \] が成り立つ。 \(X\)の累積分布関数を\(F(t)=\mathrm{Pr}\{X \le t\}\)とすると\(F(Q)=p\)であるから, 分位数\(Q\)は\(F\)の逆関数で表せる。 \[ Q = F^{-1}(p) \tag{2} \] 離散分布とは異なり,通常の連続分布においては分位数はこの定義だけしかない。

離散分布での具体例

分位が半整数となる例

\(Np\)が整数である場合の分位数\(Q\)を具体的に求めよう。 例として,標本数が\(N=8\)のときの第1四分位数\(Q_{1/4}\)を求める。 確率変数\(X\)は\(x_1, x_2, \dots, x_8\)のいずれかの実現値をもち,各々の確率は等しく\(1/8\)とする。 なお実現値\(x_i\)は小さいほうから順に並べられていて,すべて異なる値とする。 \[ x_1 < x_2 < x_3 < x_4 < x_5 < x_6 < x_7 < x_8 \] \(\mathrm{Pr}\{X \le x_2\}=1/4\)であるから,条件\(\mathrm{Pr}\{X \le Q_{1/4}\} \ge 1/4\)を満たす第1四分位数\(Q_{1/4}\)の範囲は \[ Q_{1/4} \ge x_2 \] である。また\(\mathrm{Pr}\{X \ge x_3\}=3/4\)であるから,もう一つの条件\(\mathrm{Pr}\{X \ge Q_{1/4}\} \ge 3/4\)を満たす第1四分位数\(Q_{1/4}\)の範囲は \[ Q_{1/4} \le x_3 \] である。 よって上の2つの条件を満たす第1四分位数\(Q_{1/4}\)の範囲は \[ x_2 \le Q_{1/4} \le x_3 \tag{3} \] となることが分かる。逆にこの範囲の数であればどれでも第1四分位数の資格がある。

標本に同じ値が含まれる場合

ここでは実現値\(x_i\)はすべて異なると仮定したが,実は同じ値のものが含まれていても四分位数の結果には影響しない。 たとえば\(x_2\)から\(x_4\)までが同じ値であったとして第1四分位数を求めよう。 \[ x_1 < x_2 = x_3 = x_4 < x_5 < x_6 < x_7 < x_8 \] \(\mathrm{Pr}\{X \le x_2\}=1/4\)かつ\(\mathrm{Pr}\{X \ge x_4\}=\mathrm{Pr}\{X \ge x_2\}=7/8 \ge 3/4\)であるから,2つの条件を満たす第1四分位数\(Q_{1/4}\)の範囲は \[ x_2 \le Q_{1/4} \le x_4 \] となる。しかし\(x_2=x_3=x_4\)なので,\(x_2 \le Q_{1/4} \le x_4\)でも\(x_2 \le Q_{1/4} \le x_3\)でも\(Q_{1/4}\)の範囲は変わらない。 標本に同じ値のものが含まれているとき,分位(順位)の範囲は広がっても,分位数\(Q_{1/4}\)の値には影響しない。

分位が半整数とならない例

今度は\(Np\)が整数でない場合の分位数\(Q\)を具体的に求めよう。 例として,標本数が\(N=9\)のときの第1四分位数\(Q_{1/4}\)を求める。 実現値\(x_i\)はすべて異なる値とする(同じ値のものが含まれていても結果に影響しない)。 \[ x_1 < x_2 < x_3 < x_4 < x_5 < x_6 < x_7 < x_8 < x_9 \] \(\mathrm{Pr}\{X \le x_3\}=1/3 \ge 1/4\)かつ\(\mathrm{Pr}\{X \ge x_3\}=7/9 \ge 3/4\)であるから,2つの条件を満たす第1四分位数\(Q_{1/4}\)の範囲は \[ x_3 \le Q_{1/4} \le x_3 \] である。 よって第1四分位数\(Q_{1/4}\)は \[ Q_{1/4}=x_3 \tag{4} \] に決まってしまう。

離散分布の最適な分位数

分位の範囲を決定する

離散確率変数\(X\)は\(x_1, x_2, \dots, x_N\)のいずれかの実現値をもち,各々の確率は等しく\(1/N\)とする。 なお実現値\(x_i\)は小さいほうから順に並べられていて,すべて異なる値とする(同じ値のものが含まれていても結果に影響しない)。 \[ x_1 < x_2 < \cdots < x_N \] 離散分布の場合に,一般的な定義\(\mathrm{Pr}\{X \le Q\} \ge p\),\(\mathrm{Pr}\{X \ge Q\} \ge 1-p\)と矛盾しないような分位数\(Q\)の範囲を求めよう。 何らかの方法で分位\(r\)が得られたとすると,\(x_{\lfloor r \rfloor} \le Q \le x_{\lceil r \rceil}\)であるから, \begin{align} p &\le \mathrm{Pr}\{X \le Q\} = \mathrm{Pr}\{X \le x_{\lfloor r \rfloor}\} = \frac{\lfloor r \rfloor}{N} \\ 1-p &\le \mathrm{Pr}\{X \ge Q\} = \mathrm{Pr}\{X \ge x_{\lceil r \rceil}\} = \frac{N+1-\lceil r \rceil}{N} \end{align} となる。 これから分位\(r\)の値の範囲が導かれる。 \begin{align} & Np \le \lfloor r \rfloor && \lceil r \rceil \le Np+1 \end{align} \(\lfloor r \rfloor \le r \le \lceil r \rceil\)なので,分位\(r\)は \[ Np \le r \le Np+1 \qquad (0 < p < 1) \tag{5} \] の範囲に収まるものでなければならない。 実際,統計ソフトで定義されているすべての分位はこの範囲に収まっている。

さらに精密に分位\(r\)の範囲を求めよう。 \(\lceil Np \rceil\)とは,\(Np\)以上の整数のうち最小のもののことである。 よって\(Np \le \lfloor r \rfloor\)から\(\lceil Np \rceil \le \lfloor r \rfloor\)が得られる。 同様に\(\lceil r \rceil \le \lfloor Np+1 \rfloor\)も得られる。 これに\(\lfloor r \rfloor \le r \le \lceil r \rceil\)を合わせると,分位\(r\)は \[ \lceil Np \rceil \le r \le \lfloor Np+1 \rfloor \qquad (0 < p < 1) \tag{6} \] の範囲に収まらなければならない。 したがって分位数\(Q\)は \[ x_{\lceil Np \rceil} \le Q \le x_{\lfloor Np+1 \rfloor} \qquad (0 < p < 1) \tag{7} \] の範囲に収まらなければならない。 実は\(Np\)が整数でないとき\(\lceil Np \rceil=\lfloor Np+1 \rfloor\)となるので, ほとんどの場合で分位\(r\)は一つに決まり,分位数\(Q\)も一つに決まってしまう。

分位と分位数を決定する

離散分布において,\(\mathrm{Pr}\{X \le Q\} \ge p\),\(\mathrm{Pr}\{X \ge Q\} \ge 1-p\)と矛盾しないような分位数は, 分位\(r=1/2+Np\)を最近接整数に丸めて求めるものに限られる。 さらに0.5分位数が一般的な方法で求めた中央値と一致するような丸め方はただ一つしかない。 \begin{align} & r = 1/2+Np && Q = \frac{x_{\lceil r-1/2 \rceil}+x_{\lfloor r+1/2 \rfloor}}{2} \tag{8} \end{align} 意外なことだが,線形補間より最近接整数に丸めるほうが適切なのである。

次のページへ

1 2 3 Next

3. 順序統計量

1. 連続分布の分位数
2. 離散分布の分位数
3. 順序統計量

順序統計量

\(X_1, X_2, \dots, X_n\)は互いに独立で等しい分布をもつ確率変数とする。 同一の母集団から取った\(n\)個の無作為標本と考えてもよい。 \(X_1, X_2, \dots, X_n\)の中で最も小さいものを\(X_{(1)}\), 2番目に小さいものを\(X_{(2)}\)というように, 新しく確率変数の列\(\{X_{(k)}\}\)を定める。 \[ X_{(1)} \le X_{(2)} \le \dots \le X_{(n)} \tag{1} \] これらの確率変数を順序統計量という。

順序統計量の分布

\(X_{(k)}\)の分布を求めよう。 もとの確率変数\(\{X_k\}\)の共通の累積分布関数を\(F(x)\)とする。 \[ \mathrm{Pr}\{X_k \le x\}=F(x) \qquad k=1, 2, \dots, n \] もとの\(n\)個の確率変数\(X_1, X_2, \dots, X_n\)のうちの\(i\)個が\(x\)以下となり,残りの\(n-i\)個が\(x\)より大きくなる確率は \[ \binom{n}{i} (F(x))^i (1-F(x))^{n-i} \] であるから, \(X_{(k)}\)が\(x\)以下となる確率は,もとの\(n\)個の確率変数のうちの\(k\)個以上が\(x\)以下となる確率に等しい。 \[ F_{X_{(k)}}(x) = \mathrm{Pr}\{X_{(k)} \le x\} = \sum_{i=k}^n \binom{n}{i} (F(x))^i (1-F(x))^{n-i} \tag{2} \]

分位数の分布

母集団はある連続分布に従うと仮定し,母集団の\(p\)分位数を\(Q\)とする。 \[ F(Q)=p \tag{3} \] 実数全体を次の\(n+1\)個の区間に分け,\(Q\)がどの区間に属するかを調べよう。 \[ (-\infty, X_{(1)}),\; [X_{(1)}, X_{(2)})\; ,\dots,\; [X_{(n-1)}, X_{(n)}),\; [X_{(n)}, \infty) \] \(1 \le k \le n-1\)のとき,区間\([X_{(k)}, X_{(k+1)})\)に属する確率は \begin{align} \mathrm{Pr}\{X_{(k)} \le Q < X_{(k+1)}\} &= \mathrm{Pr}\{X_{(k)} \le Q\}-\mathrm{Pr}\{X_{(k+1)} \le Q\} \\ &= \binom{n}{k} (F(Q))^k (1-F(Q))^{n-k} \\ &= \binom{n}{k} p^k (1-p)^{n-k} \tag{4} \end{align} と表せる。 また,区間\((-\infty, X_{(1)})\)に属する確率は \[ \mathrm{Pr}\{Q < X_{(1)}\} = 1-\mathrm{Pr}\{X_{(1)} \le Q\} = \binom{n}{0} p^0 (1-p)^n \tag{5} \] 区間\([X_{(n)}, \infty)\)に属する確率は \[ \mathrm{Pr}\{X_{(n)} \le Q\} = \binom{n}{n} p^n (1-p)^0 \tag{6} \] と表せる。

分位数の推定

以上のことから,分位数\(Q\)が属する区間\([X_{(k)}, X_{(k+1)})\)の下端の番号\(k\)は,二項分布\(B(n,p)\)に従う。 よって\(k\)の期待値(平均値)は\(np\)である。 二項分布において\(n\)が十分大きい場合は正規分布で近似でき,平均値,中央値,最頻値がほぼ等しく\(np\)となる。 \[ \begin{array}{cccccc} \text{区間:} & (-\infty, X_{(1)}) & \cdots & [X_{(k)}, X_{(k+1)}) & \cdots & [X_{(n)}, \infty) \\ \text{確率:} & \binom{n}{0} p^0 (1-p)^n & \cdots & \binom{n}{k} p^k (1-p)^{n-k} & \cdots & \binom{n}{n} p^n (1-p)^0 \end{array} \] 区間の下端を用いるよりも,下端と上端の中間の値を用いるほうが適切と考えられる。 母集団の分位数\(Q\)を推定するための最も単純な方法は, 分位を\(r=np+1/2\)で求め,分位数を\(Q=X_{(r)}\)とすることである。 もちろん分位\(r\)が整数になるとは限らないので工夫がいる。

最後のページです

1 2 3

2012.12.12 作成 / 2015.1.26 更新

Home › 分布関数の逆関数