CUBE SUGAR CONTAINER

技術系のこと書きます。

統計: F 分布を使って二つの標本の分散が等しいか調べる

統計の世界には、二つの標本から得られた分散が等しいかそうでないかを確かめるための手法がある。 それが、今回紹介する F 分布と、それを用いた F 検定だ。 なぜ、そんなものがあるかというと、統計には二つの標本を比べるときに分散が等しいかそうでないかでやり方を変える必要のある手法があるから。 例えば二標本間で母平均の差を区間推定もしくは差の有無を検定するときに使われる t 検定がそれに当たる。

F 検定のやり方

検定するといっても、今回は分かりやすさを優先して、ここでは帰無仮説と対立仮説がどうの、という話はしないことにする。 代わりに、結果から「差がある」といえるか「差がない」といえるのかを文章で解説していく。

F 分布を使った検定のやり方はとてもシンプル。 まずは、次のようにして F 値を計算する。

 F = \frac{s_1^{2}}{s_2^{2}}

ここで  s_1^{2} s_2^{2} は、それぞれ別々の標本から計算された不偏分散を表している。 注意点としては、式の分子の方に分散の大きい値を持ってくるという点だ。

念のため、不偏分散の計算式も示しておく。

 s = \frac{1}{n - 1} \displaystyle \sum_{i = 1}^{n} (x_i - \bar{x})^{2}

ここで  \bar{x} は標本平均を表しているため、こう。

 \bar{x} = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} x_i

次に、F 分布を参照するために必要な自由度を確認する。 自由度は、それぞれの標本のデータ数から 1 を引いた数になる。

 df_1 = n_1 - 1

 df_2 = n_2 - 1

あとは、上記の二つの自由度と有意水準を元に F 分布表を参照する。 有意水準というのは、その手法を使ったとき、どれくらいの割合で間違った結論を導くかを示す値をいう。 有意水準には一般に 0.050.01 を用いる。 これは、例えば 0.05 であれば 5% の確率で間違った結論を導いてしまう、ということを意味している。

分布表(t分布表・X2分布表・標準正規分布表・F分布表・Wilcoxon)

このとき、最初に計算した F 値が F 分布表の値を超えるようであれば、二つの標本から計算した分散には有意な差があるといえる。 つまり、分散は等しくないということだ。 反対に、もし F 値が F 分布表の値を超えないようなら、両者に有意な差はないということになる。

惣菜屋甲と惣菜屋乙はおにぎりを販売している。 A さんは、甲で販売しているおにぎりが、乙で販売しているおにぎりと比べて、重さのばらつきが大きいと感じている。 ある日、甲でおにぎりを 11 個、乙でおにぎりを 16 個買い、重さを測ったところ標本平均と不偏分散は次のようになった。

惣菜屋甲: 標本平均 = 118.0 不偏分散 = 9.0

惣菜屋乙: 標本平均 = 120.0 不偏分散 = 4.0

おにぎりの重さの母集団分布はいずれの惣菜屋でも正規分布で近似できるものとする。

(統計検定2級公式問題集 2015年6月分 問14より)

上記を有意水準 0.05 で実際に検定してみよう。

まずは両者の不偏分散から F 値を計算する。 ポイントは前述した通り、分子に大きい値を持ってくるところ。 ここでは、惣菜屋甲のおにぎりの方が分散が大きいので、分子に持ってくる。

 F = \frac{s_1^{2}}{s_2^{2}} = \frac{9.0}{4.0} = 2.25

次に、F 分布表を参照するために自由度を求めよう。 まず、甲の自由度は標本数から 10 になる。

 df_1 = 11 - 1 = 10

そして、乙の自由度は標本数から 15 になる。

 df_2 = 16 - 1 = 15

有意水準 0.05 と、各自由度を元に F 分布表を参照する。

分布表(t分布表・X2分布表・標準正規分布表・F分布表・Wilcoxon)

上記で  df_1 = 10, df_2 = 15 の値を参照すると 2.54 と分かる。

 F_{0.05} = 2.54

F 分布表を参照した値と、先ほど計算した F 値と比べると、F 値の方が小さいことが分かる。

 F = 2.25 \le F_{0.05} = 2.5437

上記から、惣菜屋甲と惣菜屋乙が作るおにぎりの分散に有意な差は見られないことが分かった。

まとめ

二つの標本の分散が等しいかを調べるのには F 検定が使える。