記述統計度数分布尺度水準代表値散布度

1. 分散

1. 分散
2. 分散公式
3. 標準偏差
4. 平均偏差
5. 平均偏差と標準偏差
6. 中央絶対偏差
7. 変動係数
8. 相対平均偏差・四分位分散係数・相対平均差

散布度

分散や標準偏差は分布の散らばりの程度を表す量でよく用いられている。 分布の散らばりの程度を表す指標のことを散布度(Measure of spread)といい, 主な散布度として,分散,標準偏差,平均偏差,範囲等がある。

比率尺度の場合は,散布度をそれの中心値で割った相対的な散布度を求めることができ,変動係数,ジニ係数等がある。

偏差

標本 x1,x2,⋯,xn の平均値を \(\bar{x}\) とする。 標本の各点から平均値を引いた値のことを平均値からの偏差という。あるいは簡単に偏差(Deviation)という。 \[ x_1-\bar{x},\quad x_2-\bar{x},\quad \dots,\quad x_n-\bar{x} \]

偏差の総和

平均値からの偏差の総和は常に 0 になる。 \[ \sum_{i=1}^n (x_i-\bar{x}) = \sum_{i=1}^n x_i - \sum_{i=1}^n \bar{x} = n \times \frac{1}{n} \sum_{i=1}^n x_i - \sum_{i=1}^n \bar{x} = n \bar{x} - n \bar{x} = 0 \]

分散

標本 x1,x2,⋯,xn に対して, 偏差の平方の平均値のことを分散(Variance)といい,s2 と表す。 \[ s^2 = \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2 \] s2のほか,σ2,v 等の記号で表すこともある。 x の分散であることを明記する場合は, sx2,σx2,vx のように表す。

不偏分散

上の分散の n/(n−1) 倍の値を不偏分散(Unbiased variance)といい, u2 と表す。 \[ u^2 = \frac{n}{n-1} s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2 \] u2のほか,s2,v 等の記号で表すこともある。 x の分散であることを明記する場合は, ux2,sx2,vx のように表す。

次のページへ

1 2 3 4 5 6 7 8 Next

2. 分散公式

1. 分散
2. 分散公式
3. 標準偏差
4. 平均偏差
5. 平均偏差と標準偏差
6. 中央絶対偏差
7. 変動係数
8. 相対平均偏差・四分位分散係数・相対平均差

分散を平均値の式で求める

分散を求めるには2乗の計算が必要であるが,2乗すると桁数がおよそ2倍に増える性質がある。 平均値に端数があると桁数が増えてしまって計算が面倒になる。 分散を定義通りに求めるのではなく,次の形で求めると計算量を減らせる場合がある。 \[ s^2 = \overline{x^2} - \bar{x}^2 = \frac{1}{n} \sum {x_i}^2 - {\bar{x}}^2 \tag{1} \]

(証明)

上の公式は定義式を次のように変形することで得られる。 \begin{align} s^2 &= \frac{1}{n} \sum (x_i-\bar{x})^2 \\ &= \frac{1}{n} \sum ({x_i}^2-2 \bar{x} x_i+\bar{x}^2) \\ &= \frac{1}{n} \sum {x_i}^2 - 2 \bar{x} \cdot \frac{1}{n} \sum x_i + \bar{x}^2 \cdot \frac{1}{n} \sum 1 \\ &= \frac{1}{n} \sum {x_i}^2 - 2 \bar{x} \cdot \bar{x} + \bar{x}^2 \\ &= \frac{1}{n} \sum {x_i}^2 - {\bar{x}}^2 \end{align}

分散を総和の式で求める

公式 (1) は平均値の式で書かれているが,これを総和の式に置き換える。 \[ s^2 = \overline{x^2} - \bar{x}^2 = \frac{1}{n} \sum {x_i}^2 - \left( \frac{1}{n} \sum x_i \right)^2 = \frac{1}{n^2} \left\{ n \sum {x_i}^2 - \left( \sum x_i \right)^2 \right\} \] よって次の公式 (2) が得られる。 \[ s^2 = \frac{1}{n^2} \left\{ n \sum {x_i}^2 - \left( \sum x_i \right)^2 \right\} \tag{2} \]

不偏分散を総和の式で求める

さらに公式 (2) を不偏分散の式に置き換える。 \[ u^2 = \frac{n}{n-1} s^2 = \frac{n}{n-1} \cdot \frac{1}{n^2} \left\{ n \sum {x_i}^2 - \left( \sum x_i \right)^2 \right\} \] よって次の公式 (3) が得られる。 \[ u^2 = \frac{1}{n(n-1)} \left\{ n \sum {x_i}^2 - \left( \sum x_i \right)^2 \right\} \tag{3} \]

分散と不偏分散の求め方

分散 s2 は \[ s^2 = \frac{1}{n} \sum (x_i-\bar{x})^2 = \overline{x^2} - \bar{x}^2 = \frac{1}{n^2} \left\{ n \sum {x_i}^2 - \left( \sum x_i \right)^2 \right\} \] 不偏分散 u2 は \[ u^2 = \frac{1}{n-1} \sum (x_i-\bar{x})^2 = \frac{1}{n(n-1)} \left\{ n \sum {x_i}^2 - \left( \sum x_i \right)^2 \right\} \] によって求められる。

次のページへ

1 2 3 4 5 6 7 8 Next

3. 標準偏差

1. 分散
2. 分散公式
3. 標準偏差
4. 平均偏差
5. 平均偏差と標準偏差
6. 中央絶対偏差
7. 変動係数
8. 相対平均偏差・四分位分散係数・相対平均差

標準偏差

分散の平方根のことを標準偏差(SD; Standard deviation)といい,s と表す。 \[ s = \sqrt{s^2} = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2} \] s のほか,σ 等の記号で表すこともある。 x の標準偏差であることを明記する場合は,sx,σx のように表す。

不偏標準偏差

不偏分散の平方根のことを不偏標準偏差(USD; Unbiased standard deviation)あるいは簡単に標準偏差といい,u と表す。 \[ u = \sqrt{u^2} = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2} \] u のほか,s 等の記号で表すこともある。 x の標準偏差であることを明記する場合は,ux,sx のように表す。

次のページへ

1 2 3 4 5 6 7 8 Next

4. 平均偏差

1. 分散
2. 分散公式
3. 標準偏差
4. 平均偏差
5. 平均偏差と標準偏差
6. 中央絶対偏差
7. 変動係数
8. 相対平均偏差・四分位分散係数・相対平均差

絶対偏差

標本 x1,x2,⋯,xn の中央値を \(\tilde{x}\),平均値を \(\bar{x}\) とする。 標本の各点から中央値を引いた値のことを中央値からの偏差, 標本の各点から平均値を引いた値のことを平均値からの偏差という。 そして偏差の絶対値のことを絶対偏差(Absolute deviation)という。 よって絶対偏差にも2種あり,中央値からの絶対偏差は \[ |x_1-\tilde{x}|,\quad |x_2-\tilde{x}|,\quad \dots,\quad |x_n-\tilde{x}| \] 平均値からの絶対偏差は \[ |x_1-\bar{x}|,\quad |x_2-\bar{x}|,\quad \dots,\quad |x_n-\bar{x}| \] である。

中央値からの平均絶対偏差

標本 x1,x2,⋯,xn に対して, 絶対偏差の平均値のことを平均絶対偏差(AAD; Average absolute deviation; MAD; Mean absolute deviation) あるいは簡単に平均偏差(AD; Average deviation; MD; Mean deviation)という。 中央値からの平均絶対偏差は \[ \text{AD} = \frac{1}{n} \sum_{i=1}^n |x_i-\tilde{x}| \] である。

平均値からの平均絶対偏差

標本 x1,x2,⋯,xn に対して, 平均値からの平均絶対偏差は \[ \text{AD} = \frac{1}{n} \sum_{i=1}^n |x_i-\bar{x}| \] である。

次のページへ

1 2 3 4 5 6 7 8 Next

5. 平均偏差と標準偏差

1. 分散
2. 分散公式
3. 標準偏差
4. 平均偏差
5. 平均偏差と標準偏差
6. 中央絶対偏差
7. 変動係数
8. 相対平均偏差・四分位分散係数・相対平均差

平均二乗誤差

標本 x1,x2,⋯,xn の各値から定数 c を引いた値のことを誤差という。 誤差の平方の平均値のことを平均二乗誤差(Mean squared error)という。 定数 c についての平均二乗誤差を MSE(c) と表そう。 \[ \text{MSE}(c) = \frac{1}{n} \sum_{i=1}^n (x_i-c)^2 \] 平均二乗誤差の値は c が平均値 \(\bar{x}\) に等しいとき最小になり,その最小値は分散であることが知られている。 \[ \min_c \text{MSE}(c) = \text{MSE}(\bar{x}) = \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2 = s_x^2 \]

平均二乗偏差平方根(RMSD)

分散は平均値からの平均二乗偏差(MSD; Mean squared deviation)と言い換えることができ, 標準偏差はそれの平方根(RMSD; Root mean squared deviation)と言い換えることができる。 標準偏差つまり平均値からの平均二乗偏差平方根を RMSDmean, 中央値からのの平均二乗偏差平方根を RMSDmedian と表そう。 上の結果から,分散つまり平均値についての平均二乗誤差は他のどの平均二乗誤差より大きくはないから, 中央値 \(\tilde{x}\) についての平均二乗誤差より大きくはない。 \[ \text{MSE}(\bar{x}) \le \text{MSE}(\tilde{x}) \] よってこれらの平方根についても \[ \text{RMSD}_{\text{mean}} \le \text{RMSD}_{\text{median}} \tag{1} \] が成り立つ。 RMSDmean は標準偏差のことである。

平均絶対誤差

誤差の絶対値の平均値のことを平均絶対誤差(Mean absolute error)という。 定数 c についての平均絶対誤差を MAE(c) と表そう。 \[ \text{MAE}(c) = \frac{1}{n} \sum_{i=1}^n |x_i-c| \] 平均絶対誤差の値は c が中央値 \(\tilde{x}\) に等しいとき最小になり,その最小値は中央値からの平均絶対偏差であることが知られている。 \[ \min_c \text{MAE}(c) = \text{MAE}(\tilde{x}) = \frac{1}{n} \sum_{i=1}^n |x_i-\tilde{x}| = \text{AD}_{\text{median}} \] 中央値からの平均絶対偏差を ADmedian, 平均値からの平均絶対偏差を ADmean と表すと, \[ \text{AD}_{\text{median}} \le \text{AD}_{\text{mean}} \tag{2} \] が成り立つ。

平均絶対誤差と平均二乗誤差平方根

平均絶対誤差の値は常に平均二乗誤差平方根より大きくないことが知られている。 \[ \text{MAE}(c) \le \text{RMSE}(c) \] 定数 c が平均値 \(\bar{x}\) に等しいとき, 平均絶対誤差は平均絶対偏差 ADmean,平均二乗偏差平方根は平均二乗偏差平方根 RMSDmean だから, 次が成り立つ。 \[ \text{AD}_{\text{mean}} \le \text{RMSD}_{\text{mean}} \tag{3} \] 以上の結果 (1) (2) (3) をまとめると, 中央値からの平均偏差,平均値からの平均偏差,標準偏差,中央値からの平均二乗偏差平方根について, 常に次の関係が成り立つことがわかる。 \[ \text{AD}_{\text{median}} \le \text{AD}_{\text{mean}} \le \text{RMSD}_{\text{mean}} \le \text{RMSD}_{\text{median}} \]

次のページへ

1 2 3 4 5 6 7 8 Next

6. 中央絶対偏差

1. 分散
2. 分散公式
3. 標準偏差
4. 平均偏差
5. 平均偏差と標準偏差
6. 中央絶対偏差
7. 変動係数
8. 相対平均偏差・四分位分散係数・相対平均差

中央絶対偏差

中央値からの絶対偏差の中央値のことを中央絶対偏差(MAD; Median absolute deviation)という。 標本 x1,x2,⋯,xn の中央値を \(\tilde{x}\) または Median x と表すことにすると, \[ \text{MAD} = \text{Median} |x_i-\tilde{x}| = \text{Median} \left| x_i-\text{Median}(x) \right| \] である。

次のページへ

1 2 3 4 5 6 7 8 Next

7. 変動係数

1. 分散
2. 分散公式
3. 標準偏差
4. 平均偏差
5. 平均偏差と標準偏差
6. 中央絶対偏差
7. 変動係数
8. 相対平均偏差・四分位分散係数・相対平均差

変動係数(相対標準偏差)

標準偏差 SD を平均値 \(\bar{x}\) で割った値のことを変動係数または変異係数(CV; COV; Coefficient of variation), あるいは相対標準偏差(RSD; Relative standard deviation)という。 \[ \text{CV} = \text{RSD} = \frac{\text{SD}}{\bar{x}} = \frac{1}{\bar{x}} \times \sqrt{\frac{1}{n} \sum (x_i-\bar{x})^2} \] 標準偏差 SD は不偏分散の平方根のこともある。 \[ \text{CV} = \text{RSD} = \frac{\text{SD}}{\bar{x}} = \frac{1}{\bar{x}} \times \sqrt{\frac{1}{n-1} \sum (x_i-\bar{x})^2} \]

次のページへ

1 2 3 4 5 6 7 8 Next

8. 相対平均偏差・四分位分散係数・相対平均差

1. 分散
2. 分散公式
3. 標準偏差
4. 平均偏差
5. 平均偏差と標準偏差
6. 中央絶対偏差
7. 変動係数
8. 相対平均偏差・四分位分散係数・相対平均差

相対平均偏差

中央値からの平均絶対偏差 AD を中央値 \(\tilde{x}\) で割った値, または平均値からの平均絶対偏差 AD を平均値 \(\bar{x}\) で割った値のことを 相対平均絶対偏差(RAAD; Relative average absolute deviation; RMAD; Relative mean absolute deviation)または簡単に相対平均偏差という。 SPSSでは散らばり係数(COD; Coefficient of dispersion)という。 AD の値として中央値からの平均絶対偏差を用いるときは \[ \text{RAD} = \frac{\text{AD}}{\tilde{x}} = \frac{1}{\tilde{x}} \times \frac{1}{n} \sum |x_i-\tilde{x}| \] AD の値として平均値からの平均絶対偏差を用いるときは \[ \text{RAD} = \frac{\text{AD}}{\bar{x}} = \frac{1}{\bar{x}} \times \frac{1}{n} \sum |x_i-\bar{x}| \] である。

四分位分散係数

四分位偏差 (Q3−Q1)/2 をミッドヒンジ (Q1+Q3)/2 で割った値のことを 四分位分散係数(Quartile coefficient of dispersion)という。 \[ \text{QCD} = \frac{Q_3-Q_1}{Q_1+Q_3} \] 分布が対称ならば,四分位偏差は中央絶対偏差に等しく,ミッドヒンジは中央値に等しいから, 四分位分散係数は相対中央絶対偏差(中央絶対偏差を中央値で割ったもの)にほぼ等しい。

四分位分散係数・十分位分散係数

総務省統計局や厚生労働省等で上と類似の係数が用いられることがある。 四分位範囲の半分の値(四分位偏差)を中央値で割った値のことを四分位分散係数(Quartile dispersion coefficient), 十分位範囲(90パーセント点から10パーセント点を引いたもの)の半分の値を中央値で割った値のことを十分位分散係数(Decile dispersion coefficient)という。 これらの利用はほぼ日本国内に限られるようである。 100α%点を Qα と表すと, 四分位分散係数 QDC と十分位分散係数 DDC は次のように定義される。 \[ \text{QDC} = \frac{Q_3-Q_1}{2Q_2},\qquad \text{DDC} = \frac{Q_{0.9}-Q_{0.1}}{2Q_{0.5}} \] 四分位範囲を2で割って四分位偏差を求めるのは意味があるが,十分位範囲を2で割ることに意味はない。 十分位分散係数の定義は少しおかしい。

相対平均差

平均絶対差 MD を平均値 \(\bar{x}\) で割った値のことを 相対平均絶対差(Relative mean absolute difference)または簡単に相対平均差という。 \[ \text{RMD} = \frac{\text{MD}}{\tilde{x}} = \frac{1}{\bar{x}} \times \frac{1}{n^2} \sum\sum |x_i-x_j| \] 平均差 MD は推定値のこともある。 \[ \text{RMD} = \frac{\text{AD}}{\bar{x}} = \frac{1}{\bar{x}} \times \frac{1}{n(n-1)} \sum\sum |x_i-x_j| \] 相対平均差 RMD の半分の値はジニ係数に等しい。

最後のページです

1 2 3 4 5 6 7 8 Home

2016.8.18 作成 / 2016.8.22 更新

Home › 散布度・相対的散布度