統計: はじめての推定 - CUBE SUGAR CONTAINER

今回は、統計における重要な手法である「推定」について書いてみることにする。推定は、現実世界の様々な場面で使われている。例えば、選挙で開票作業が始まった直後に当選確実がニュースで流れることがある。一体どうしてそんなことが分かるのか、不思議に思ったことがあるかもしれない。実は、これには正に統計における推定が使われている。

ただ、推定のやり方は多種多様なので一つのエントリで書きつくすことは難しい。それをすると、むしろ分かりにくくなってしまうと思う。そこで、最初は推定の基本的な考え方と共に最もシンプルな推定について書くことにする。続きとなる別のパターンについては、おいおい書いていくと思う。

推定の説明に入る前に、いくつか前提となる知識について書いていく。

記述統計と推測統計

一口に統計学といっても、実は古典的な統計には大きく分けて二つのジャンルがある。それが記述統計と推測統計というもの。

まず、記述統計というのは、生のデータを要約することで分かりやすくすることを主に扱う分野になっている。これには例えば、データをグラフに加工することで見やすくしたり隠れた特徴を見出すことも含まれている。統計というと難しい数式を扱うもの、というイメージがあるかもしれないけど、それだけではないということ。

それに対して推測統計というのは、限られた部分集団から抽出元の情報を推測することを扱う分野になっている。例えば、先ほど例に挙げた選挙速報もこれに当たる。

選挙速報では、まず出口調査で誰に投票したかという情報を集める。この集めた情報は標本 (サンプル) と呼ばれる。標本は、その抽出元の特徴を受け継いだものになっている。ここでいう抽出元というのは有権者全員が誰に投票したか、という情報で母集団と呼ばれる。選挙速報では、出口調査で集めた標本から誰にどれだけ票が入ったかを推定する。

今回扱う推定は、後者の推測統計で扱われる。

どうやって推定するか？

推定のやり方には主に二つある。一つ目は点推定で、二つ目が区間推定というやり方だ。点推定というのは、最もそれらしい値を求めて「ここだ！」と一点賭けするやり方。それに対して区間推定というのは、推定する値はある確率でここからここまでの区間に収まるはずだ、と求めるやり方。

また、推定するものにも色々とある。例えば平均、分散、比率などが主なもの。先ほどの選挙速報の例では比率になる。

さらに、抽出元の情報がどこまで分かっているか、といった点でもやり方が変わってくる。例えば、選挙の例であれば母集団の比率を推定することになる。このとき、母分散は分かっているのか、母分布は分かっているのか、標本のサンプル数はどれだけあるのか。それぞれ状況によって使う手法は変わってくる。

最も単純な推定

今回は、考えうる最も単純な推定を扱ってみる。この場合、前提として母集団についての母数 (パラメータ) があらかじめ一通り分かっている状況になる。その状況で、標本について推定するのが最も単純な推定になると思う。

ここで、母集団というのは抽出元のデータのことをいう。それに対して標本というのは、母集団に含まれる値を取り出したものをいう。

母集団についての母数 (パラメータ) が分かっている状況というのは、次の通り。

平均について: 母平均が分かっている
分散について: 母分散が分かっている
分布について: 母分布が正規分布と分かっている

上記の言葉にあまり馴染みがなくても大丈夫、ここから解説していく。

平均について

平均と一口に言っても実は色々ある。ただし、ここでいう平均は最も一般的な算術平均を指している。

算術平均の定義は次の通り。ここで $\mu$ が平均になる。データ点数が $n$ で $x_i$ が各要素の値になる。ここで、各要素が出現する確率は等しいとする。

$\mu = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} x_i$

数式は難しいけど、ようするにデータの総和をデータの個数で割ったもの。一例として、次のようなデータがあるとしよう。

$X = 10, 20, 30$

このデータについて平均を計算すると、次のようになる。

$\mu = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} x_i = \frac{10 + 20 + 30}{3} = 20$

分散について

分散というのは、データがどれだけバラついているかを表す統計量の一つ。

分散の定義は次の通り。

$\sigma^{2} = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} (x_i - \mu)^{2}$

先ほどのデータについて分散も計算してみよう。

$X = 10, 20, 30$

ここで $\sigma^{2}$ が母分散になる。

$\sigma^{2} = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} (x_i - \mu)^{2} = \frac{(10 - 20)^{2} + (20 - 20)^{2} + (30 - 20)^{2}}{3} = 66.\dot{6}\dot{6}$

そして、この分散の平方根を取ると標準偏差という統計量になる。

$\sigma = \sqrt{\frac{1}{n} \displaystyle \sum_{i = 1}^{n} (x_i - \mu)^{2}}$

先ほどのデータについて計算すると、こうなる。

$\sigma = \sqrt{\frac{1}{n} \displaystyle \sum_{i = 1}^{n} (x_i - \mu)^{2}} = \sqrt{\frac{(10 - 20)^{2} + (20 - 20)^{2} + (30 - 20)^{2}}{3}} = 8.1649658$

この標準偏差という統計量は、後述する正規分布と深いつながりがある。

正規分布について

データの分布の仕方にも色々とある。その中でも、正規分布は自然界にもよくあるし統計でも扱いやすい性質を持っている。

まず、正規分布は平均を中心に釣鐘型の形になっている。

f:id:momijiame:20170102201116p:plain

ちなみに、上記は平均が 0 で標準偏差が 1 となっている。このような正規分布のことを標準正規分布と呼ぶ。

f:id:momijiame:20170102201125p:plain

標準正規分布は、どこまでの値が全体の何パーセントを占めているかが、あらかじめ分かっている。例えば、平均値 0 を中心として標準偏差±一つ分 ( $1 \sigma$ ) までなら全体の約 68% がそこに入る。同じように標準偏差±二つ分 (tex: 2 \sigma]) なら約 95% が入る。

f:id:momijiame:20170102201135p:plain

平均が 0 で標準偏差が 1 の標準正規分布に対して、それ以外の正規分布を一般正規分布と呼ぶ。次の一般正規分布は平均が 50 で標準偏差が 10 で、これは偏差値の分布になっている。

f:id:momijiame:20170102201145p:plain

一般正規分布は標準化という操作をすることで標準正規分布に変換できる。具体的には、一般正規分布の各要素の値から平均値を引いて標準偏差で割る。次の数式は、一般正規分布 $X$ を標準化して標準正規分布 $Z$ を得る過程を示している。

$Z = \frac{X - \mu}{\sigma}$

ここから言えることを考えてみよう。標準正規分布は、あらかじめどういった値がどれくらいの割合で含まれているかが分かっている。そして、一般正規分布は平均値と標準偏差を使って標準化することで標準正規分布に変換できる。つまり、データが正規分布だと知っていて平均値と標準偏差が分かっているとすれば、どういった値がどれくらいの割合で含まれるかが計算できるということ。

テストを例に考えてみる

例えば、あるテストで A さんは 90 点を取ったとしよう。このテストを受けた全員の結果をまとめると正規分布になっていた。そして、平均点が 60 で標準偏差が 15 だったとする。この情報にもとづいて A さんの取った点数を標準化してみることにする。

$\frac{90 - 60}{15} = 2$

結果は 2 となった。次は、この結果がどういった意味を持つのかについて説明する。以下のサイトにある標準正規分布表を見てもらいたい。

標準正規分布表

この標準正規分布表には、標準正規分布において平均からの距離で、それ以上の値が全体のどれだけの割合で含まれるか書かれている。表の見方は、まず縦の行が小数点第一位まで、そして横の列がそれに対応する小数点第二位になっている。表のヘッダ部分に書かれている数字は平均からの距離を表している。そして、表の中身に書かれている数字は、その距離よりも大きな値が全体のどれだけ含まれているかになる。例えば一番左上は 0.0 で平均ちょうどを表している。その中身として書かれている 0.5 という数字は 0.0 よりも大きな値は全体の 50% ある、という意味になる。

表の見方が分かったところで $2 \sigma$ つまり 2.0 のところ、を見てみよう。中身として書かれている値は 0.02275 つまり約 2% になる。つまり A さんの成績は上位 2% に位置していることが分かる。

また、仮に上記の操作を全員分のテストの結果に適用する場合を考えてみよう。すると、元が平均 60 で標準偏差が 15 の一般正規分布が、平均 0 で標準偏差が 1 の標準正規分布になるというわけ。

点推定

だいぶ回り道になってしまったけど、これで前提知識が一通り説明できた。なので、話を推定に戻すことにする。まず、今回はデータ (母集団) が正規分布で、平均値と分散 (標準偏差) が既に分かっている状況を扱うという話だった。

上記のようなシチュエーションで、この母集団から標本を一つ取り出すとしたら、どういった値が出てくるか予測したい。このとき、推定の一つ目の手法である点推定では、最も出やすい値を一つだけ選ぶやり方になる。そして、正規分布において最も出やすい値というのは分布の中央にある平均値を指す。

$\mu = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} x_i$

つまり、正規分布から点推定をするなら平均値を答えれば良いということ。しかし、理論上最も当たりやすいとはいえ、これが実際に当たるかといえば、そうは思えないはず。

区間推定

そこで登場するのが区間推定という考え方になる。区間推定では、その名の通り「ここからここまで」という区間で推定する。

とはいえ、どの区間を推定で使うかというのが重要になる。当たり前だけど、区間に $[ -\infty, \infty$ ] を指定すれば、その推定は 100% 当たる。しかし、そんな推定は何の意味もない。

そこで、区間推定では信頼係数という概念を用いる。この信頼係数には一般的に 95% や 99% という値を使う。つまり、信頼係数の確率で推定した値がその区間に入りそうだ、ということ。

また、信頼係数は別の表現方法として、次のように有意水準 $\alpha$ を使うこともある。

$100(1 - \alpha) \%$

有意水準というのは、言い換えれば推定した値が求めた区間の外にある確率でもある。もちろん 100% ではない以上、区間内に推定した値が入らない恐れはあるということ。信頼係数 95% というのは、有意水準 5% でその区間推定が間違っている確率でもある。

標本の区間推定

区間推定の考え方の説明が終わったので、次は実際に計算してみよう。信頼係数には 95% (つまり有意水準 5%) を採用する。

区間推定では、なるべく狭い区間で信頼係数を満たす確率を達成したい。そのため、正規分布の区間推定では、平均値を中心として左右に同じ距離を指定する。ちょうど、先に出したグラフに信頼係数 95% の区間推定の範囲があった。ただし、グラフでは $\pm 2 \sigma$ と書いていたけど、実際には $\pm 1.96 \sigma$ を使う

f:id:momijiame:20170102201135p:plain

この 1.96 という数字が何処から出てきたかというと、もう一度標準正規分布表を見ると分かる。

標準正規分布表

ここで 1.96 のところを見ると 0.024998 と、ほぼ 2.5% になっていることが分かる。正規分布では平均値を中心に大きい値と小さな値が均等に出るので、有意水準 5% を左右に均等に割り振る。そのため、この値になる。もし、信頼係数が 99% なら、有意水準 1% を左右に均等に割り振って 0.5% になる。そのときは代わりに 2.58 を使う。

つまり、標準正規分布で信頼係数 95% の区間推定をするなら平均値 0 を中心に $\pm 1.96$ を指定すれば良いことが分かる。これを不等式で表現してみよう。この式を満たす $x$ が、標準正規分布から標本をランダムに取り出したとき 95% で当たる値になる。

$-1.96 \le x \le 1.96$

余談だけど、これを信頼係数を決めずに書くときは、次のような式で表現する。

$-z_{\frac{\alpha}{2}} \le x \le z_{\frac{\alpha}{2}}$

ただし、上記は標準正規分布の場合、ということに注意が必要となる。巷に存在する正規分布は一般正規分布だからだ。

少し前に説明した内容を思い出すと、一般正規分布は標準正規分布に変換できた。それは標準化という操作で、平均値を引いて標準偏差で割る、というものだった。これを、先ほどの不等式に組み込んでみよう。

$-1.96 \le \frac{x - \mu}{\sigma} \le 1.96$

これで標準正規分布の区間推定を一般正規分布に拡張できた。

この式を $x$ について解いてみよう。まずは三辺に $\sigma$ を掛ける。

$-1.96 \sigma \le x - \mu \le 1.96 \sigma$

次に三辺に $\mu$ を足す。

$\mu - 1.96 \sigma \le x \le \mu + 1.96 \sigma$

つまり、母数 (パラメータ) が既知な一般正規分布から標本をランダムに一つ取り出したときの信頼係数 95% の区間推定は、この値になる。

$\mu \pm 1.96 \sigma$

例題

例えば、あるプロ野球チームの平均身長が 182cm で、標準偏差が 9cm だったとする。この分布が正規分布に従うとして、一人の選手をランダムに抽出することを考える。抽出した選手の身長を信頼係数 95% で区間推定しよう。

問題文から得られた、分布の母数 (パラメータ) を先ほどの式に代入する。

$182 \pm 1.96 \times 9$

上記を解くと、次のような区間が得られる。

$[ 164.36, 199.64$ ]

問題文にある母集団から一人の選手をランダムに抽出すると 95% の確率で上記の範囲に収まることが分かった。

標本平均の区間推定

先ほどまでの内容は、母集団から一つの標本を取り出すときのことを考えていた。次は母集団からいくつかの標本を取り出して平均を取ったときのことを考えてみよう。このいくつかの標本を元にした平均を標本平均と呼ぶ。記号では $\bar{x}$ で表されることが多い。

考え方は一つの標本の区間推定と変わらない。ただし、全く同じではない。なぜなら、標本平均の分布は、母分布に比べると標準偏差が縮むため。

ここでいう標本平均の分布というのは、母集団から何度も何度も無限に標本平均を計算してプロットしたもの。このとき、平均値は母分布と変わらないものの標準偏差は変わってしまう。具体的には母分布の標準偏差が $\sigma$ のとき標本平均の分布では $\frac{\sigma}{\sqrt{n}}$ となる。つまり、標本平均を計算するのに使ったデータ点数に応じて標準偏差が縮むということ。