母集団の期待値とt分布の関係

正規分布の期待値の分散の推定や検定に$t$分布がよく用いられるが、なぜ期待値の推定が、

\bar{X}-t_{+97.5}\sqrt{\frac{S^2}{n}}\lt \mu\lt \bar{X}-t_{-97.5}\sqrt{\frac{S^2}{n}}\tag{5}

のような式になるかの導出を毎回忘れるのでメモしておく。

定理と定義

正規分布$t$分布の関係を求めるのに必要な定理や定義を列挙する

分散の性質

定数倍の分散

確率変数$X$を定数倍した確率変数$kX$の分散は次のようになる。

V(kX)=k^2V(X)\tag{1}

確率変数の和の性質

確率変数$X$$Y$が独立な場合、その和も確率変数となり、その分散は次のようになる。

V(X+Y)=V(X)+V(Y)\tag{2}

正規分布の性質

$X$が期待値$\mu$、分散$\sigma ^ 2$正規分布に従うとき、$X\sim\mathcal{N}(\mu,\sigma ^ 2)$と書く。

正規分布の和の性質

2つの独立な確率変数$X\sim\mathcal{N}(\mu _ X,\sigma ^ 2 _ X)$$Y\sim\mathcal{N}(\mu _ Y,\sigma ^ 2 _ Y)$があるとき、それらの和の確率変数はは次のような正規分布に従う。(上で述べた分散の性質などを参考)

X+Y\sim\mathcal{N}(\mu_X+\mu_Y,\sigma^2_X+\sigma^2_Y)\tag{3}

標準正規分布

$X\sim\mathcal{N}(\mu,\sigma ^ 2)$である$X$から期待値を引いて、標準偏差で割って標準化した値は標準正規分布に従う。

\begin{aligned}Z&=\frac{X-\mu}{\sigma}\\Z&\sim\mathcal{N}(0,1)\end{aligned}

正規分布に従う複数の確率変数

同じ正規分布に従う確率変数が$X _ 1,\ldots,X _ n$と複数あり、それぞれ独立($X _ 1,\ldots,X _ N,i.i.d.{\sim} N(\mu,\sigma ^ 2)$)である場合、その合計$\sum _ {i=1} ^ n{X _ i}$と平均$\bar{X}$はそれぞれ次のような正規分布に従う。(上に述べた式($3$)、式($1$)などの性質を使えばわかる。)

\begin{aligned}&\sum_{i=1}^n{X_i}\sim\mathcal{N}(n\mu,n\sigma^2)\\&\bar{X}=\frac{1}{n}\sum_{i=1}^n{X_i}\sim\mathcal{N}(\mu,\frac{\sigma^2}{n})\end{aligned}

標準正規分布に従う複数の確率変数

また、標準正規分布に従う確率変数が$Z _ 1,\ldots,Z _ n$$n$個あり、それぞれ独立であるとする。あるいは、$X _ 1,\ldots,X _ n$を標準化した$Z _ 1,\ldots,Z _ n$としてもいい。平均$\bar{Z}$は次のような正規分布に従う。($\bar{Z}$$Z _ i\sim\mathcal{N}(0,1)$であることと、上に述べた数式を使えばいい。)

\bar{Z}\sim\mathcal{N}(0,\frac{1}{n})

一方、平方和は自由度$n$カイ二乗分布に従う。

Z_1^2+\cdots+Z_n^2=\sum_{i=1}^nZ_i^2\sim\chi^2_n

また、平均を引いて平方和をとった、偏差平方和は次のように自由度$n-1$カイ二乗分布に従う。またこれは$\bar{Z}\sim\mathcal{N}(0,1/n)$と独立である。

\sum_{i=1}^n(Z_i-\bar{Z})^2\sim\chi^2_{n-1}

なぜ偏差平方和が$\bar{Z}$と独立で、自由度が1減ったカイ二乗分布に従うかの証明については「久保川達也『現代数理統計学の基礎』」P87参照
https://www.amazon.co.jp/dp/4320111664/

$t$分布

確率変数$Z\sim\mathcal{N}(0,1)$$U\sim\chi ^ 2 _ m$が独立であるとき、次のような計算をした確率変数は自由度$m$$t$分布に従う。

T=\frac{Z}{\sqrt{U/m}}\sim t_m

母集団の期待値とt分布の関係

さて、ここまで準備して、母集団の期待値とt分布の関係が導出できる。

問題設定

正規分布$\mathcal{N}(\mu,\sigma ^ 2)$に従う母集団があるが、期待値$\mu$と分散$\sigma ^ 2$は未知だとする。このとき、少ない労力で、期待値$\mu$がどれくらいかについて知りたいとする。

方針

$t$分布になるように、確率変数$T$の分子と分母を作っていく。

分子を作る

まず、母集団から$n$個ランダムに標本を抽出し、$X _ 1,\ldots,X _ n$とすると、それらは独立に$\mathcal{N}(\mu,\sigma ^ 2)$に従う。そしてその平均$\bar{X}$は次のように$X _ 1,\ldots,X _ n$を標準化した$Z _ 1,\ldots,Z _ n$の平均$\bar{Z}$と次のような関係がある。

\begin{aligned}\bar{Z}&=\frac{1}{n}\sum_{i=1}^n{Z_i}\\&=\frac{1}{n}\sum_{i=1}^n\frac{{X_i}-\mu}{\sigma}\\&=\frac{\bar{X}-\mu}{\sigma}\end{aligned}

そして上で述べたように$\bar{Z}\sim\mathcal{N}(0,1/n)$なので、$\sqrt{n}\bar{Z}\sim\mathcal{N}(0,1)$となる。

よって$\sqrt{n}\bar{Z}$$T$の分子とすればいい。

分母を作る

$X _ 1,\ldots,X _ n$の不偏分散$S ^ 2$は次のようになる。

S^2=\frac{1}{n-1}\sum_{i=1}^n\left({X_i}-\bar{X}\right)^2

これを変形していくと、次のように$X _ i$を標準化した$Z _ i$で表せる。

\begin{aligned}S^2&=\frac{1}{n-1}\frac{\sigma^2}{\sigma^2}\sum_{i=1}^n\left({X_i}-\mu+\mu-\bar{X}\right)^2\\&=\frac{\sigma^2}{n-1}\sum_{i=1}^n\left(\frac{{X_i}-\mu}{\sigma}-\frac{\bar{X}-\mu}{\sigma}\right)^2\\&=\frac{\sigma^2}{n-1}\sum_{i=1}^n(Z_i-\bar{Z})^2\end{aligned}

よって上で述べたように、不偏分散を次のように変換したものは、$\bar{Z}$と独立で、自由度$n-1$$\chi ^ 2$分布に従う。これを$U$と置く。

\begin{aligned}U&=\frac{n-1}{\sigma^2}S^2\\&=\sum_{i=1}^n(Z_i-\bar{Z})^2\sim\chi^2_{n-1}\end{aligned}

よって$\sqrt{U/n-1}$を分母とすればいい。

$T$を導出する

以上で、分子と分母ができたので、$T$を導出する。計算したように、$\sqrt{n}\bar{Z}\sim\mathcal{N}(0,1)$$U\sim\chi ^ 2 _ {n-1}$は独立なので、次のように計算された$T$は自由度$n-1$$t$分布に従う。

\begin{aligned}T&=\frac{\sqrt{n}\bar{Z}}{\sqrt{U/n-1}}\\&=\frac{\sqrt{n}(\bar{X}-\mu)/\sigma}{\sqrt{(n-1)S^2/\left(\sigma^2(n-1)\right)}}\\&=\frac{(\bar{X}-\mu)}{\sqrt{S^2/n}}\sim t_{n-1}\tag{4}\end{aligned}

解釈

上で述べたように、$\bar{X}$$\mathcal{N}(\mu,\sigma ^ 2/n)$に従う。なのでこれを次のように標準化すれば、これは標準正規分布に従う。

\frac{\bar{X}-\mu}{\sqrt{\sigma^2/n}}=\sqrt{n}\bar{Z}\sim\mathcal{N}(0,1)

この標準化において、$\sigma ^ 2$は未知なので、それを不偏分散$S ^ 2$で置き換えた式、つまり式$4$正規分布に近い分布に従うと考えられる。この「正規分布に近い分布」が$t$分布である。

期待値がどれくらいか

$t$分布から、どのように期待値を推定するのだろうか。まず、上の$T\sim t _ {n-1}$の意味は

$\mathcal{N}(\mu,\sigma ^ 2)$に従う母集団からランダムに$n$個標本を抽出する。この標本を標本$1$とし、この標本$1$から式4で計算した$T$$T _ 1$とする。

このランダムな抽出を何回も繰り返し、標本$2$から$T _ 2$、標本$3$から$T _ 3$と計算していく。これら$T$の値、$T _ 1,T _ 2,\ldots$が従う確率分布が$t$分布である。」

という意味になる。

また、別の言い方をすれば、$t$分布の下側97.5%の点、上側97.5%の点をそれぞれ$t _ {-97.5}$$t _ {+97.5}$とすると、母集団から標本を抽出し、式$4$で計算した$T$$95$%の確率でこの間に入るとも言える。

t_{-97.5}\lt T\lt t_{+97.5}

この式を$\mu$がありそうな範囲を表すよう式変形すると、次のようになる。

\bar{X}-t_{+97.5}\sqrt{\frac{S^2}{n}}\lt \mu\lt \bar{X}-t_{-97.5}\sqrt{\frac{S^2}{n}}\tag{5}

このように、標本の平均$\bar{X}$と不偏分散$S ^ 2$から、母集団の期待値$\mu$がどれくらいになるかが推定できる。式の形から分かるように、抽出する標本の数$n$が多いほどこの推定は正確になる。

注意しなくてはならないのが期待値$\mu$は決して分布はしないということである。未知ではあるが、確実に決まった値を持っている。なので、式$5$は期待値$\mu$の分布を表すのではなく、標本$X _ 1,\ldots,X _ n$が抽出されたとき、これら限られた情報を用いて推定された期待値の推定である。情報が少なかったり、母集団の分散が大きければこの推定は大雑把になる。期待値自体は変化して分布はしないが、限られた情報から期待値を推定した値というのは情報の精度によってその範囲が決まってくるということである。