PR

データの分散・標準偏差の定義・具体例・性質まとめ

統計学
記事内に広告が含まれています。

統計学における,データの散らばり具合を表す指標である「分散・標準偏差」について,その定義と具体例・大事な性質を紹介します。さらに,分散の定義の「なぜ」についても掘り下げます。

データの分散・標準偏差の定義・具体例・性質まとめ

分散・標準偏差の定義

分散・標準偏差はデータの散らばり具合を表す指標です。

データの分散・標準偏差の定義

定義(分散・標準偏差)

データ x_1, x_2, \dots, x_n について,その平均値 \displaystyle\overline{x} = \dfrac{1}{n}\sum_{k=1}^n x_k とする。このとき,

\color{red}\begin{equation}\sigma^2 = \frac{1}{n}\sum_{k=1}^n (x_k-\overline{x})^2\end{equation}


分散 (variance) といい,

\color{red}\begin{equation}\sigma =\sqrt{\sigma^2}= \sqrt{\frac{1}{n}\sum_{k=1}^n (x_k-\overline{x})^2}\end{equation}


標準偏差 (standard deviation) という。

分散・標準偏差は \sigma^2, \sigma 以外に \color{red} s^2, s という記号もよく使われる。また,分散は V(x) とかくこともある。

\sigma ギリシャ文字の「シグマ」です。

x_k -\overline{x} を平均値からの偏差 (deviation) といいます。

(1) 式は平均値周りの2乗誤差(偏差の2乗) (x_1-\overline{x})^2,\dots, (x_n-\overline{x})^2 を足してデータ数 n で割っているため,2乗誤差の平均(偏差の2乗の平均)といえますね。したがって,分散は平均値周りの平均2乗誤差 (mean squared error; MSE) とも言えます。

標準偏差は,分散の平方根ですね。2乗した分を平方根取って単位をそろえているんですね。n 次元ユークリッド距離の計算のようです。

定義から当然 \sigma^2 , \sigma \ge 0 ですね。さらに

\sigma^2=0 \iff x_1=x_2=\dots =x_n


も容易にわかるでしょう。すべてが同じ値でない限り,必ず \sigma^2>0 になります。

データの分散・標準偏差の具体例

例1.

データ \color{red} 40, 40, 50, 80,90 の平均は

\overline{x} = \frac{40+40+50+80+90}{5}=60


であるから,分散は

\small \begin{aligned}\sigma^2&=\frac{1}{5}\left\{\begin{aligned} &(40-60)^2+(40-60)^2+(50-60)^2\\&\qquad\qquad+(80-60)^2+(90-60)^2\end{aligned}\right\}\\ &= \frac{400+400+100+400+900}{5}\\ &= 440\end{aligned}


である。標準偏差は \sigma =\sqrt{440}=20.976\cdots である。

普通に計算してあげることで求まりますね。

例2.

データ \color{red} 0, 40, 50, 80,90 の平均は \overline{x}=52,分散は \sigma^2=1016,標準偏差は \sigma=\sqrt{1016}=31.875\cdots である。

さっきはデータ 40,40,50,80,90 だったのを 0,40,50,80,90 にしました。すると平均は 60 から 52 に下がっていますが,それ以上に分散が 440 から 1016 へと大幅に増加しています。

分散は2乗しているが故に,一つでも平均から大きく外れた値があると,その誤差の2乗分が大きく分散にのしかかってくるわけです。これは分散の欠点ですね。

データの分布をヒストグラムにしたものと,分散の大まかな対応を確認しておきましょう。全てデータ数は n=10000 で,平均は 0 になるようにしています。

ヒストグラムと分散の関係

分散がデータの散らばり具合を表しているというのがよくわかりますね。

データの分散・標準偏差の性質

定理(分散・標準偏差の性質)

データ x_1, x_2, \dots, x_n に対し,その平均を \overline{x},分散を \sigma^2,標準偏差を \sigma で表す。このとき,

  1. \color{red}\sigma^2 = \overline{(x^2)}-(\overline{x})^2.
  2. \color{red}\overline{x}=\argmin_a \frac{1}{n}\sum_{k=1}^n(x_n-a)^2. すなわち,一般に \frac{1}{n}\sum_{k=1}^n(x_k-a)^2 が最小となる定数 a は, a=\overline{x} である。

\overline{(x^2)} = \frac{1}{n}\sum_{k=1}^n x_k^2 はデータの2乗の平均です。

\argmin の意味は「すなわち」以下にかいてある通りですが,argmax,argminとは~定義と具体例~でも解説しています。

特に1.は大切で,分散は「(2乗の平均)ー(平均の2乗)」で求められるということです。上の具体例を,この公式で求めてみるのは良い練習問題でしょう。

証明

1. \sigma^2 = \overline{(x^2)}-(\overline{x})^2 について

\begin{aligned}\sigma^2&= \frac{1}{n}\sum_{k=1}^n (x_k-\overline{x})^2 \\ &= \frac{1}{n}\sum_{k=1}^n\{ x_k^2-2x_k\overline{x}+ (\overline{x})^2 \}\\ &= \frac{1}{n} \sum_{k=1}^n x_k^2-2\overline{x} \frac{1}{n} \sum_{k=1}^n x_k+ \frac{1}{n} n(\overline{x})^2 \\ &= \overline{(x^2)} -2(\overline{x})^2+ (\overline{x})^2 \\ &= \overline{(x^2)} -(\overline{x})^2 . \end{aligned}


2. \overline{x}=\argmin_a \frac{1}{n}\sum_{k=1}^n(x_k-a)^2 について

\begin{aligned}\frac{1}{n}\sum_{k=1}^n (x_k-a)^2 &= \frac{1}{n}\sum_{k=1}^n (a^2-2ax_k+x_k^2) \\ &= a^2 -2a\frac{1}{n}\sum_{k=1}^n x_k + \frac{1}{n} \sum_{k=1}^n x_k^2 \\ &= a^2 -2\overline{x}a+\overline{(x^2)} \\ &= (a-\overline{x})^2 + \overline{(x^2)} - (\overline{x})^2 \\ &\ge \overline{(x^2)} - (\overline{x})^2 =\sigma^2 \end{aligned}


であり, a=\overline{x} のとき等号が成立する。よって, a=\overline{x} のとき最小になる。

証明終

変量の変換

\{x_k\}_{k=1}^n の平均・分散・標準偏差をそれぞれ \overline{x}, \sigma^2_x,\sigma_x とし,y_k =ax_k+b としましょう。このときの \{y_k\} の平均・分散・標準偏差 \overline{y}, \sigma^2_y, \sigma_y はそれぞれ

\color{red}\begin{aligned}\overline{y} &= a\overline{x}+b , \\ \sigma_y^2 &= a^2\sigma_x^2,\\ \sigma_y &= |a|\sigma_x \end{aligned}


となることが,計算により分かります。

なぜ2乗した誤差を考えるのか

分散は,平均2乗誤差をもってして散らばり具合を表すものだといいました。ところで,誤差を見るときになぜ2乗するのでしょうか。これについてちょっと考えてみましょう。

2乗せずに和を取っても意味がない

\frac{1}{n} \sum_{k=1}^n (x_k-\overline{x})^2 の代わりに単なる平均誤差

\color{red} \frac{1}{n} \sum_{k=1}^n (x_k-\overline{x})


を考えるとどうなるでしょうか。実は,平均偏差は常に 0 になり,考える意味がありません。実際,

\begin{aligned} \frac{1}{n} \sum_{k=1}^n (x_k-\overline{x}) &= \frac{1}{n} \sum_{k=1}^n x_k-\frac{1}{n} n \overline{x}\\ &= \overline{x}-\overline{x} = 0 \end{aligned}


ですね。

絶対値をつけて和をとっても的外れである

それでは,\frac{1}{n} \sum_{k=1}^n (x_k-\overline{x})^2 の代わりに誤差の符号が常に正になるよう,平均絶対誤差 (mean absolute error; MAE)

\color{red}\frac{1}{n} \sum_{k=1}^n |x_k-\overline{x}|

を考えるとどうでしょうか(これは平均偏差 (mean absolute deviation) と呼ばれます)。実は,これも以下の点で不都合です。

  1. 絶対値は関数として解析的(微分可能)でなく,少々扱いづらい。
  2. \overline{x}\ne \argmin_a \sum_{k=1}^n |x_k-a| である。すなわち,平均絶対誤差を最も最小にするのは a=\overline{x} (平均値周り)ではない。

1. は単に数学的な理由です。四則演算のみでかけている方が,何かと扱いやすいです。

タイトルに「的外れである」と書いたのは2.の理由です。そもそも「誤差」を考えるにあたって,誤差はできるだけ小さくしたいですから,誤差 \frac{1}{n} \sum_{k=1}^n |x_k-a| が最小になるように a の値を定めるのが普通でしょう。上で述べた定理の2.より,分散の定義では,誤差を最小にするのはちゃんと平均値であることを証明しました。

しかし,この平均絶対誤差を最小にする a の値は平均値ではなく,中央値であることが知られています。そもそも平均値周りの誤差を考えるのに,平均絶対誤差は適さないということですね。

逆に,中央値まわりの誤差を考えたいときは,平均絶対誤差を考えるのは有力な候補です。しかし,中央値の導出も四則演算のみでは書けないので,数学的には少々扱いにくいのが難点です。

関連する記事