統計: 異なるデータセットの標本を標準得点で比較する

例えば、次のような二種類のデータセットをプロットしたヒストグラムがあったとする。どちらも一般正規分布となっているようだ。

f:id:momijiame:20160902215826p:plain

このデータセットを、あるテストの点数と捉えてみよう。本来、テストなら上限値と下限値があるはずだけど、そこは簡略化している。

それぞれのデータセット (テストの得点) は次のようなパラメータになっている。平均値も標準偏差 (値のバラつき) も異なることがわかる。

青
- 平均値: 66
- 標準偏差: 20
緑
- 平均値: 122
- 標準偏差: 41

ある人が、このふたつのテストを受けて、それぞれ別々の点数が得られたとする。そのとき、ふたつの得点がどれだけ優れているのかを比較するには、どうしたら良いだろうか？

例えば A さんは青のテストで 86 点を取って、緑のテストでは 183 点を取ったとする。どちらも平均値を大きく上回っていることから、良い点数であることは分かる。しかし、具体的に、どの程度良い点数なのかを知るには、どうしたら良いか。

標準得点で比較する

上記の A さんが取得した得点は、データセット全体 (母集団) から抽出した標本と見なせるはず。このように、パラメータの異なる分布の標本同士を比べるには、それを標準得点に加工する必要がある。

標準得点というのは、いくつか種類はあるものの、代表的なものに z スコアがある。 z スコアというのは、標本 ( $x$ ) から平均値 ( $\mu$ ) を引いて標準偏差 ( $\sigma$ ) で割ったものをいう。

$z = \frac{x - \sigma}{\mu}$

この操作を標準化という。結果として得られるのは、標本が平均値から標準偏差を基準にして何個分離れているかを表したものになる。

標準化の意味

例えば青のデータセットを例にして、z スコアを使った標準化の意味を考えてみよう。

もし、標本が平均値ちょうど (66) なら、最初に平均値を引いた時点で 0 になる。それを標準偏差 (20) で割っても 0 のままだ。もし、平均値から標準偏差ひとつ分だけプラスに離れている (66 + 20 = 86) なら、平均値を引くと 20 になる。それを標準偏差 (20) で割ると 1 だ。

このように、z スコアを使った標準化では、標本が平均値から標準偏差を基準にしていくつ分離れているかが分かる。

z スコアに標準化した標本同士は、比較できる。なぜなら、どちらも平均値から標準偏差を基準にして、いくつ分離れているかという同じ尺度になっているため。