Home平均二乗誤差平均絶対誤差最大絶対誤差

平均二乗誤差

1. 平均二乗誤差
2. 平均二乗誤差の最小化

平均二乗誤差・平均二乗誤差平方根

ある値 c に対して,各データ値 xi と c との差の平方の平均値のことを c の平均二乗誤差(Mean squared error)といい, それを MSE(c) と表す。 \[ \text{MSE}(c) = \frac{1}{n} \sum_{i=1}^n (x_i-c)^2 \] 上の MSE(c) の平方根のことを c の平均二乗誤差平方根(Root mean squared error)といい, それを RMSE(c) と表す。 \[ \text{RMSE}(c) = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i-c)^2} \] 平均二乗誤差平方根 RMSE(c) は各データ値 xi と中心値 c の距離と見なせる。 代表値とは各データから最も近い中心値 c のことだが, 近さを RMSE によって測れば,代表値が平均値 \(\bar{x}\) になるのである。

ユークリッド距離

標本 x1, x2, … , xn を n 次元空間の1つの点 (x) = (x1, x2, … , xn) とみなし, 中心値 c を n 次元空間の1つの点 (c) = (c, c, … , c) とみなす。 点 (x) と点 (c) のユークリッド距離 d2 を次のように定義する。 ユークリッド距離 d2 は通常の距離である。 \[ d_2((x),(c)) = \sqrt{(x_1-c)^2+(x_2-c)^2+\dots+(x_n-c)^2} = \sqrt{\sum (x_i-c)^2} \] 平均二乗誤差平方根 RMSE はユークリッド距離 d2 を定数(n の平方根)で割ったものになっている。 \[ \text{RMSE}(c) = \frac{1}{\sqrt{n}} \times d_2((x),(c)) \] よって平均二乗誤差平方根 RMSE が最小となる点 c を見つけることは, ユークリッド距離 d2 が最も小さい点 (c) を見つけることと同等である。

次のページへ

1 2 Next

平均二乗誤差の最小化

1. 平均二乗誤差
2. 平均二乗誤差の最小化

平均値が平均二乗誤差を最小にすること

c の平均二乗誤差 MSE(c) を次のように変形する。 \(\bar{x}\)は平均値,SDは標準偏差である。 \begin{align} \text{MSE}(c) &= \frac{1}{n} \sum_{i=1}^n (x_i-c)^2 \\ &= \frac{1}{n} \sum_{i=1}^n \{(x_i-\bar{x})+(\bar{x}-c)\}^2 \\ &= \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2+\frac{1}{n} \sum_{i=1}^n (\bar{x}-c)^2 +2 (\bar{x}-c) \cdot \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x}) \\ &= \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2+(\bar{x}-c)^2 \\ &= \text{SD}^2+(\bar{x}-c)^2 \end{align} よって c が平均値に等しいとき,平均二乗誤差 MSE(c) が最小になる。 \[ \min_c \text{MSE}(c) = \text{MSE}(\bar{x}) = \text{SD}^2 \] c が平均値に等しいとき,平均二乗誤差平方根 RMSE(c) も最小になる。 \[ \min_c \text{RMSE}(c) = \text{RMSE}(\bar{x}) = \text{SD} \]

平均値と標準偏差

標本の各点と中心点との距離を平均二乗誤差平方根 RMSE で(ユークリッド距離で)測るとき, 標本の各点から最も近い中心点は平均値 \(\bar{x}\) である。 そのときの平均二乗誤差平方根 RMSE の最小値は標準偏差 SD となることがわかる。

代表値として平均値 \(\bar{x}\) を,散布度として標準偏差 SD を対にして使うとよい。

最後のページです

1 2 Home

平均絶対誤差

1. 平均絶対誤差
2. 平均絶対誤差の最小化

平均絶対誤差

ある値 c に対して,各データ値 xi と c との差の絶対値の平均値のことを c の平均絶対誤差(Mean absolute error)といい, それを MAE(c) と表す。 \[ \text{MAE}(c) = \frac{1}{n} \sum_{i=1}^n |x_i-c| \] 平均絶対誤差 MAE(c) は各データ値 xi と中心値 c の距離と見なせる。 代表値とは各データから最も近い中心値 c のことだが, 近さを MAE によって測れば,代表値が中央値 \(\tilde{x}\) になるのである。

マンハッタン距離

標本 x1, x2, … , xn を n 次元空間の1つの点 (x) = (x1, x2, … , xn) とみなし, 中心値 c を n 次元空間の1つの点 (c) = (c, c, … , c) とみなす。 点 (x) と点 (c) のマンハッタン距離 d1 を次のように定義する。 \[ d_1((x),(c)) = |x_1-c|+|x_2-c|+\dots+|x_n-c| = \sum |x_i-c| \] 平均絶対誤差 MAE はマンハッタン距離 d1 を定数(n)で割ったものになっている。 \[ \text{MAE}(c) = \frac{1}{n} \times d_1((x),(c)) \] よって平均絶対誤差 MAE が最小となる点 c を見つけることは, マンハッタン距離 d1 が最も小さい点 (c) を見つけることと同等である。

次のページへ

1 2 Next

平均絶対誤差の最小化

1. 平均絶対誤差
2. 平均絶対誤差の最小化

中央値が平均絶対誤差を最小にすること

もとのデータ x1, x2, … , xn を大きさの順に並べ替えたものを x(1), x(2), … , x(n) とする。 \[ x_{(1)} \le x_{(2)} \le \dots \le x_{(n)} \] \(\tilde{x}\) は中央値,AD は中央値からの平均絶対偏差(中央値からの平均偏差)とする。

標本の大きさが偶数のとき

標本の大きさ n が偶数のとき,n = 2m とすると,中央値は \[ x_{(m)} \le \tilde{x} \le x_{(m+1)} \] の範囲にあり,中央値からの平均偏差 AD の n 倍は \begin{align} n \times \text{AD} &= |x_{(1)}-\tilde{x}|+\dots+|x_{(n)}-\tilde{x}| \\ &= -(x_{(1)}-\tilde{x})-\dots-(x_{(m)}-\tilde{x})+(x_{(m+1)}-\tilde{x})+\dots+(x_{(n)}-\tilde{x}) \\ &= -x_{(1)}-\dots-x_{(m)}+x_{(m+1)}+\dots+x_{(n)} \end{align} と表せる。 一方で c の平均絶対誤差 MAE(c) の n 倍は次のように表せる。 \[ n \times \text{MAE}(c) = |x_{(1)}-c|+\dots+|x_{(n)}-c| \] もし x(m) ≤ c ≤ x(m+1) なら, \begin{align} n \times \text{MAE}(c) &= -(x_{(1)}-c)-\dots-(x_{(m)}-c)+(x_{(m+1)}-c)+\dots+(x_{(n)}-c) \\ &= -x_{(1)}-\dots-x_{(m)}+x_{(m+1)}+\dots+x_{(n)} \\ &= n \times \text{AD} \end{align} もし x(k) ≤ c ≤ x(k+1) ≤ x(m) なら, \begin{align} n \times \text{MAE}(c) &= -(x_{(1)}-c)-\dots-(x_{(k)}-c)+(x_{(k+1)}-c)+\dots+(x_{(n)}-c) \\ &= \text{AD}+2(x_{(k+1)}-c)+\dots+2(x_{(m)}-c) \\ &\ge n \times \text{AD} \end{align} もし x(m+1) ≤ x(k) ≤ c ≤ x(k+1) なら, \begin{align} n \times \text{MAE}(c) &= -(x_{(1)}-c)-\dots-(x_{(k)}-c)+(x_{(k+1)}-c)+\dots+(x_{(n)}-c) \\ &= \text{AD}-2(x_{(m+1)}-c)-\dots-2(x_{(k)}-c) \\ &\ge n \times \text{AD} \end{align} c ≤ x(1) や x(n) ≤ c の場合も同様である。 いずれの場合も MAE(c) ≥ AD であり,MAE(c) が最小になるのは c が中央値のときである。

標本の大きさが奇数のとき

標本の大きさ n が奇数のとき,n = 2m−1 とすると,中央値は \[ \tilde{x} = x_{(m)} \] であり,中央値からの平均偏差 AD の n 倍は \begin{align} n \times \text{AD} &= |x_{(1)}-\tilde{x}|+\dots+|x_{(n)}-\tilde{x}| \\ &= -(x_{(1)}-\tilde{x})-\dots-(x_{(m-1)}-\tilde{x})+(x_{(m+1)}-\tilde{x})+\dots+(x_{(n)}-\tilde{x}) \\ &= -x_{(1)}-\dots-x_{(m-1)}+x_{(m+1)}+\dots+x_{(n)} \end{align} と表せる。 一方で c の平均絶対誤差 MAE(c) の n 倍は次のように表せる。 \[ n \times \text{MAE}(c) = |x_{(1)}-c|+\dots+|x_{(n)}-c| \] もし c = x(m) なら, \begin{align} n \times \text{MAE}(c) &= -(x_{(1)}-c)-\dots-(x_{(m-1)}-c)+(x_{(m+1)}-c)+\dots+(x_{(n)}-c) \\ &= -x_{(1)}-\dots-x_{(m-1)}+x_{(m+1)}+\dots+x_{(n)} \\ &= n \times \text{AD} \end{align} もし x(k) ≤ c ≤ x(k+1) ≤ x(m) なら, \begin{align} n \times \text{MAE}(c) &= -(x_{(1)}-c)-\dots-(x_{(k)}-c)+(x_{(k+1)}-c)+\dots+(x_{(n)}-c) \\ &= \text{AD}+2(x_{(k+1)}-c)+\dots+2(x_{(m-1)}-c)+(x_{(m)}-c) \\ &\ge n \times \text{AD} \end{align} もし x(m) ≤ x(k) ≤ c ≤ x(k+1) なら, \begin{align} n \times \text{MAE}(c) &= -(x_{(1)}-c)-\dots-(x_{(k)}-c)+(x_{(k+1)}-c)+\dots+(x_{(n)}-c) \\ &= \text{AD}-(x_{(m)}-c)-2(x_{(m+1)}-c)-\dots-2(x_{(k)}-c) \\ &\ge n \times \text{AD} \end{align} c ≤ x(1) や x(n) ≤ c の場合も同様である。 いずれの場合も MAE(c) ≥ AD であり,MAE(c) が最小になるのは c が中央値のときである。

標本の大きさが偶数または奇数のとき

標本の大きさが偶数の場合も奇数の場合も c が中央値に等しいとき,平均絶対誤差 MAE(c) が最小になる。 \[ \min_c \text{MAE}(c) = \text{MAE}(\tilde{x}) = \text{AD} \] したがって, 各データ値までの距離を平均絶対誤差 MAE(c) で測るとき,中央値はその距離を最小にする値である。

中央値と平均偏差

標本の各点と中心点との距離を平均絶対誤差 MAE で(マンハッタン距離で)測るとき, 標本の各点から最も近い中心点は中央値 \(\tilde{x}\) である。 そのときの平均絶対誤差 MAE の最小値は中央値からの平均偏差 AD となることがわかる。

代表値として平均値 \(\tilde{x}\) を,散布度として中央値からの平均偏差 AD を対にして使うとよい。

最後のページです

1 2 Home

最大絶対誤差

1. 最大絶対誤差
2. 最大絶対誤差の最小化

最大絶対誤差

ある値 c に対して,各データ値 xi と c との差の絶対値の最大値のことを c の最大絶対誤差(Maximum absolute error)といい, とりあえず MaxAE(c) と表そう。 \[ \text{MaxAE}(c) = \max_{1 \le i \le n} |x_i-c| \] 最大絶対誤差 MaxAE(c) は各データ値 xi と中心値 c の距離と見なせる。 代表値とは各データから最も近い中心値 c のことだが, 近さを MaxAE によって測れば,代表値がミッドレンジになる。 ミッドレンジとはデータの最大値と最小値の中間の値のことである。

チェビシェフ距離

標本 x1, x2, … , xn を n 次元空間の1つの点 (x) = (x1, x2, … , xn) とみなし, 中心値 c を n 次元空間の1つの点 (c) = (c, c, … , c) とみなす。 点 (x) と点 (c) のチェビシェフ距離 d を次のように定義する。 \[ d_\infty((x),(c)) = \max |x_i-c| \] 最大絶対誤差 MaxAE はチェビシェフ距離 d に等しい。 \[ \text{MaxAE}(c) = d_\infty((x),(c)) \] よって最大絶対誤差 MaxAE が最小となる点 c を見つけることは, チェビシェフ距離 d が最も小さい点 (c) を見つけることと同等である。

次のページへ

1 2 Next

最大絶対誤差の最小化

1. 最大絶対誤差
2. 最大絶対誤差の最小化

ミッドレンジが最大絶対誤差を最小にすること

最大絶対誤差の変形

もとのデータ x1, x2, … , xn を大きさの順に並べ替えたものを x(1), x(2), … , x(n) とする。 \[ x_{(1)} \le x_{(2)} \le \dots \le x_{(n)} \] x(1) は最小値,x(n) は最大値になる。 ミッドレンジ(最大値と最小値の中間の値)を MR とおき, 範囲(最大値から最小値を引いた値)の半分の値を SR とおく。 \[ \text{MR} = \frac{x_{(1)}+x_{(n)}}{2},\qquad \text{SR} = \frac{x_{(n)}-x_{(1)}}{2} \tag{1} \] c がミッドレンジ MR より大きい場合と小さい場合に分けて考えると \begin{align} c \le \text{MR} \implies |x_{(i)}-c| \le |x_{(n)}-c| \\ c \ge \text{MR} \implies |x_{(i)}-c| \le |x_{(1)}-c| \end{align} より,すべての i について \[ |x_{(i)}-c| \le \max(|x_{(1)}-c|, |x_{(n)}-c|) \] となるから,最大絶対誤差 MaxAE について次の不等式が成り立つ。 \[ \text{MaxAE}(c) = \max |x_{(i)}-c| \le \max(|x_{(1)}-c|, |x_{(n)}-c|) \] 反対に max |x(i)−c| ≥ max(|x(1)−c|, |x(n)−c|) は明らかなので, 最大絶対誤差 MaxAE は次の式によって求めることができる。 \[ \text{MaxAE}(c) = \max |x_{(i)}-c| = \max(|x_{(1)}-c|, |x_{(n)}-c|) \tag{2} \] 最大値と最小値の誤差だけ調べれば十分で,残りは調べなくてよいのである。

最大絶対誤差の最小化

最大絶対誤差 MaxAE(c) は上の式 max(|x(1)−c|, |x(n)−c|) によって求めることができる。 これが最小になるのは c がミッドレンジ MR のときで,最小値は範囲の半分の値 SR である。 \[ \min_c \text{MaxAE}(c) = \text{MaxAE}(\text{MR}) = \text{SR} \]

ミッドレンジと範囲

標本の各点と中心点との距離を最大絶対誤差 MaxAE で(チェビシェフ距離で)測るとき, 標本の各点から最も近い中心点はミッドレンジ MR である。 そのときの最大絶対誤差 MaxAE の最小値は範囲の半分の値 SR となることがわかる。

代表値としてミッドレンジ MR を,散布度として範囲の半分の値 SR または範囲 R を用いることができるが, これらは外れ値に極めて強い影響を受けるため,利用は避けるべきである。

最後のページです

1 2 Home

誤差関数

Home平均二乗誤差平均絶対誤差最大絶対誤差

2016.8.12 作成 / 2016.8.28 更新

Home › 誤差関数