統計: 続・はじめての推定 (母平均編)

今回のエントリは、以下のエントリの続きになっている。

blog.amedama.jp

上記のエントリでは、統計における基本的な推定の考えを解説した。また、その例として考えうる最も単純な推定を扱っている。それというのは、母集団の全ての母数 (パラメータ) が既知な状況での標本の推定だった。

今回は、それの続きとして母集団の母数 (パラメータ) が部分的に未知な状況を扱う。幾つかのパターンを扱う中で一貫しているのは、母平均が未知になっているのでそれを推定するという点だ。

状況ごとに使う手法について

まず、全ての前提として母集団は正規分布ということが分かっているとする。しかし、母集団の平均は分かっておらず、これを推定したい。

このとき、点推定に関しては状況によらず標本平均を使えば良い。これが母平均の点推定になる。

$\bar{x} = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} x_i$

それに対し、区間推定のときは状況によって、使う手法を三つのパターンで変えなければいけない。

母分散が既知のとき
- 母分散と正規分布を使って推定する
母分散が未知で大標本のとき
- 不偏分散と正規分布を使って推定する
母分散が未知で小標本のとき
- 不偏分散と t 分布を使って推定する

上記で、実用的なのは母分散が未知なときの推定だろう。なぜなら、母分散が既知なのに母平均は未知なので知りたいという状況は、そうそうないため。

母分散が既知のとき

母分散が既知のときは、実のところ前回のエントリで使ったのと同じ以下の不等式が使える。

$-z_{\frac{\alpha}{2}} \le \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}} \le z_{\frac{\alpha}{2}}$

上記において $z_{\frac{\alpha}{2}}$ は有意水準にもとづいた値になる。例えば信頼係数 95% なら 1.96 だし 99% なら 2.58 を使う。それ以外では $\bar{x}$ が標本平均で $\sigma$ が母標準偏差、そして $\mu$ が母平均になる。

上記の式で未知なのは母平均 $\mu$ だけだ。母標準偏差 $\sigma$ は母分散の平方根を取れば良いし、標本平均 $\bar{x}$ はいくつか取り出して計算すれば分かる。なので、やることは母平均 $\mu$ について上記の不等式を解くだけで良い。

まずは三辺に $\frac{\sigma}{\sqrt{n}}$ を掛ける。

$-z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \le \bar{x} - \mu \le z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}$

次に三辺に $\mu$ を足す。

$\mu - z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \le \bar{x} \le \mu + z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}$

左辺に着目する。

$\mu - z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \le \bar{x}$

$\mu$ について解く。

$\mu \le \bar{x} + z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}$

同じように右辺に着目する。

$\bar{x} \le \mu + z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}$

$\mu$ について解く。

$\bar{x} - z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \le \mu$

二つの式をつなげると、こうなる。

$\bar{x} - z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \le \mu \le \bar{x} + z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}$

つまり、母分散が既知なときの区間推定は次の式で求まる。

$\bar{x} \pm z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}$

例題

あるおにぎり製造マシンは作るおにぎりの重さを自由に調整できる。このとき、設定した重さと実際に出来上がる重さには誤差が出るが、その分布は正規分布に従うとする。また、母分散は作るおにぎりの重さに関わらず 9g とカタログスペックから分かっている。この機械を使って試しにおにぎりを 16 個作ってみたところ、その平均は 100g だった。この機械が作るおにぎりの母平均を信頼係数 95% で区間推定せよ。

問題文から得られた値を、先ほどの式に代入する。

$100 \pm 1.96 \frac{\sqrt{9}}{\sqrt{16}}$

上記を解くと、次の区間が得られる。

$[ 98.53, 101.47$ ]

このおにぎり製造マシンの母平均は上記の区間の中に 95% の確率で収まることが分かった。

母分散が未知で大標本のとき

次に、母分散が未知で大標本のときについて。ここでいう大標本とは、標本のデータ数が概ね $n \ge 30$ や $n \ge 100$ のときを指す。

これも、母分散が既知のときと基本的な考え方は変わらない。ただし、母分散が分からないので、代わりに標本を元にした分散を使って推定する。

標本を元にして母分散に近づくように計算した分散を「不偏分散」という。使われる記号は $s^{2}$ だったり $u^{2}$ だったりと色々ある。ここでは $\hat{\sigma}^{2}$ を使うことにする。計算方法は次の通り。

$\hat{\sigma}^{2} = \frac{1}{n - 1} \displaystyle \sum_{i = 1}^{n} (x_i - \bar{x})^{2}$

上記の数式の中で $n$ は標本のデータ数を表している。また、 $\bar{x}$ は標本平均を表している。

$\bar{x} = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} x_i$

あとは、不偏分散を元に計算した不偏標準偏差を母分散が既知なときの式に組み込むだけで良い。

$\bar{x} \pm z_{\frac{\alpha}{2}} \frac{\hat{\sigma}}{\sqrt{n}}$

上記の不偏標準偏差は単に不偏分散の平方根を取ったものだけど、一応示しておく。

$\hat{\sigma} = \sqrt{\frac{1}{n - 1} \displaystyle \sum_{i = 1}^{n} (x_i - \bar{x})^{2}}$

例題

あるおにぎり製造マシンは作るおにぎりの重さを自由に調整できる。このとき、設定した重さと実際に出来上がる重さには誤差が出るが、その分布は正規分布に従うとする。この機械を使って試しにおにぎりを 49 個作ってみたところ、その平均は 100g で不偏分散は 16 だった。この機械が作るおにぎりの母平均を信頼係数 95% で区間推定せよ。

問題文から得られた値を、先ほどの数式に当てはめる。

$100 \pm 1.96 \frac{\sqrt{16}}{\sqrt{49}}$

上記を解くと、次の区間が得られる。

$[ 98.88, 101.12$ ]

このおにぎり製造マシンの母平均は上記の区間の中に 95% の確率で収まることが分かった。

別解

先ほどの例では標本を元に母分散に近づけた「不偏分散」を使うやり方だった。これとは別のやり方として「標本分散」を使うやり方もある。

不偏分散と標本分散の違いは割る数にある。不偏分散では $n - 1$ なのに対して標本分散では $n$ になる。ここでは標本分散を $s^{2}$ で表すことにする。

$s^{2} = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} (x_i - \bar{x})^{2}$

標本標準偏差は、標本分散の平方根を取ったもの。

$s = \sqrt{\frac{1}{n} \displaystyle \sum_{i = 1}^{n} (x_i - \bar{x})^{2}}$

標本分散 (標準偏差) を使うときは縮み方が変わる。そこで式に組み込むときは $\sqrt{n}$ で割っていたところを $\sqrt{n - 1}$ にする。

$\bar{x} \pm z_{\frac{\alpha}{2}} \frac{s}{\sqrt{n - 1}}$

母分散が未知で小標本のとき

次は母分散が未知で小標本のとき。ここでいう小標本とは、標本のデータ数が概ね $n \le 30$ や $n \le 100$ のときを指す。

この状況も、先ほどの母分散が未知で大標本のときと基本的な考え方は変わらない。母分散が未知なので、不偏分散は引き続き使うことになる。ただし、標本が少ないときは分布が正規分布に従わなくなる。そこで、代わりに登場するのが自由度 f の t 分布になる。

t 分布というのは正規分布を少しつぶしたような形の分布をしている。さらに、自由度というパラメータによっても、その形が異なる。次のグラフは標準正規分布と共に自由度 1 と 2 の t 分布を描いている。 t 分布は自由度が大きくなるほど正規分布に近づいていく。

f:id:momijiame:20170103212624p:plain

ここで自由度というのは、どれだけの値が確定すれば全体の値が確定するかを示した値になっている。例えば標本が一次元の離散値なら、自由度はその標本として取り出したデータ点数から 1 を引いた値になる。

$f = n - 1$

これを数式に組み込むと、こうなる。内容的には、母分散が未知で大標本のときに使った正規分布の値を t 分布の値に入れ替えるだけ。

$\bar{x} \pm t_{\frac{\alpha}{2}}(n - 1) \frac{\hat{\sigma}}{\sqrt{n}}$

上記の $t_{\frac{\alpha}{2}}(n - 1)$ について自分で計算しないときは t 分布表を参照する。次の分布表では自由度 $f$ の t 分布を両側確率 $P$ で書いてある。

付表： t分布表 Student's t distribution — 中川雅央（滋賀大学）

これは、例えば標本の点数が 6 で信頼係数 95% なら $f = 5$ かつ $P = 0.05$ を参照する。つまり、このとき不等式は、次のようになる。

$\bar{x} \pm 2.570582 \frac{\hat{\sigma}}{\sqrt{n}}$

例題

あるおにぎり製造マシンは作るおにぎりの重さを自由に調整できる。このとき、設定した重さと実際に出来上がる重さには誤差が出るが、その分布は正規分布に従うとする。この機械を使って試しにおにぎりを 9 個作ってみたところ、その平均は 100g で不偏分散は 4 だった。この機械が作るおにぎりの母平均を信頼係数 95% で区間推定せよ。

まずは、標本のデータ点数 9 にもとづいて自由度 $f = 9 - 1$ となる。また、信頼係数 95% にもとづいて $P = 0.05$ となる。パラメータをもとに t 分布表を見ると 2.306004 を使えば良いことが分かった。