読者です 読者をやめる 読者になる 読者になる

CUBE SUGAR CONTAINER

技術系のこと書きます。

統計: 異なるデータセットの標本を標準得点で比較する

例えば、次のような二種類のデータセットをプロットしたヒストグラムがあったとする。 どちらも一般正規分布となっているようだ。

f:id:momijiame:20160902215826p:plain

このデータセットを、あるテストの点数と捉えてみよう。 本来、テストなら上限値と下限値があるはずだけど、そこは簡略化している。

それぞれのデータセット (テストの得点) は次のようなパラメータになっている。 平均値も標準偏差 (値のバラつき) も異なることがわかる。

    • 平均値: 66
    • 標準偏差: 20
    • 平均値: 122
    • 標準偏差: 41

ある人が、このふたつのテストを受けて、それぞれ別々の点数が得られたとする。 そのとき、ふたつの得点がどれだけ優れているのかを比較するには、どうしたら良いだろうか?

例えば A さんは青のテストで 86 点を取って、緑のテストでは 183 点を取ったとする。 どちらも平均値を大きく上回っていることから、良い点数であることは分かる。 しかし、具体的に、どの程度良い点数なのかを知るには、どうしたら良いか。

標準得点で比較する

上記の A さんが取得した得点は、データセット全体 (母集団) から抽出した標本と見なせるはず。 このように、パラメータの異なる分布の標本同士を比べるには、それを標準得点に加工する必要がある。

標準得点というのは、いくつか種類はあるものの、代表的なものに z スコアがある。 z スコアというのは、標本 (x) から平均値 (\mu) を引いて標準偏差 (\sigma) で割ったものをいう。

z = \frac{x - \sigma}{\mu}

この操作を標準化という。 結果として得られるのは、標本が平均値から標準偏差を基準にして何個分離れているかを表したものになる。

標準化の意味

例えば青のデータセットを例にして、z スコアを使った標準化の意味を考えてみよう。

もし、標本が平均値ちょうど (66) なら、最初に平均値を引いた時点で 0 になる。 それを標準偏差 (20) で割っても 0 のままだ。 もし、平均値から標準偏差ひとつ分だけプラスに離れている (66 + 20 = 86) なら、平均値を引くと 20 になる。 それを標準偏差 (20) で割ると 1 だ。

このように、z スコアを使った標準化では、標本が平均値から標準偏差を基準にしていくつ分離れているかが分かる。

z スコアに標準化した標本同士は、比較できる。 なぜなら、どちらも平均値から標準偏差を基準にして、いくつ分離れているかという同じ尺度になっているため。

例を当てはめて比べてみる

例えば、先ほど A さんが取得した得点について考えてみよう。

まず、青のテストで取った 86 点を z スコアに標準化してみる。

z = \frac{x - \sigma}{\mu} = \frac{86 - 66}{20} = 1.0

次に、緑のテストで取った 183 点も z スコアに標準化する。

z = \frac{x - \sigma}{\mu} = \frac{183 - 122}{41} = 1.4878

ふたつの z スコアを比較すると、緑のテストで取った点数の方が高いことが分かった。

1.0 \lt 1.4878

つまり、緑のテストで取った 183 点の方が、青のテストで取った 86 点よりもすごさでいえば上ということが分かった。

z スコアと偏差値

実は、先ほど計算した z スコアは、一度は耳にしたことがあるはずの、とある指数とも深い関わりがある。 それが、受験などでよく使われる偏差値だ。 これも、標準得点のひとつとなる。

偏差値というのは、実は z スコアを少し加工するだけで作ることができる。 具体的には、z スコアを 10 倍して 50 を足したものが偏差値だ。

z スコアというのは、元々のデータセットをすべてこれに変換すると平均値 (\mu) が 0 で標準偏差 (\sigma) が 1 の分布になる。 それに対し、偏差値は平均値 (\mu) が 50 で標準偏差 (\sigma) が 10 になったものをいう。

平均値を 0 から 50 にするには 50 を足せばいい。 標準偏差を 1 から 10 にするには 10 倍すればいい。 つまり、偏差値は z スコアを 10 倍して 50 を足せば得られるということになる。

Z = 10\frac{x - \sigma}{\mu} + 50

ようするに z スコアが 1.0 というのと、偏差値が 60 というのは本質的に同じものを表している。 まあ、後者の方が数値がある程度大きい分、分かりやすいかもしれない。

一応、最初の A さんの得点を偏差値でも比較しておこう。

まずは青の点数から。

Z = 10\frac{x - \sigma}{\mu} + 50 = 10\frac{86 - 66}{20} + 50 = 60

次に緑の点数。

Z = 10\frac{x - \sigma}{\mu} + 50 = 10\frac{183 - 122}{41} + 50 = 64.878

偏差値は z スコアを元にしているので当たり前のことだけど緑の点数の方がすごいということがわかる。

60 \lt 64.878

つまり、テストの平均値と標準偏差さえ分かれば次の式にもとづいて偏差値は自分で計算できる。

Z = 10\frac{x - \sigma}{\mu} + 50

まとめ

  • 異なるデータセットの標本同士を比較するには標準得点を使う
    • 標準得点にはいくつかの種類がある
  • 最も基本的な標準得点は z スコア
    • z スコアは標本から平均値 (\mu) を引いて標準偏差 (\sigma) で割る
  • z スコアは偏差値の元となる
    • z スコアを 10 倍して 50 を足すと偏差値になる