中心極限定理について
概要
- 母集団がどのような確率分布に従うとしても、標本の数を十分大きくしたときには、その合計値あるいは標本平均は、正規分布に従う
定式
標本の合計
\[N(n \mu,n\sigma^2)\]- \(n\); 合計した確率分布の数
- \(\mu\); n個の標本の平均
- \(\sigma^2\); n個の標本の分散
標本の平均
\[N(\mu, \frac{\sigma^2}{n})\]- \(n\); 合計した確率分布の数
- \(\mu\); n個の標本の平均
- \(\sigma^2\); n個の標本の分散
表現
- 区間推定で用いられる式を導出できる表現を用いて表される
実験
- 適当に一様分布を10個取りこれの平均を計算する(n=10)
- これを
10e+5
回施行した場合のヒストグラムを確認する - 定理が正しいのであれば\(N(\mu, \frac{\sigma^2}{n})\)の分布に従うはずである
import random
import pandas as pd
import numpy as np
vs =[]
for i in range(10**5):
v = np.random.random(10).mean()
vs.append(v)
df = pd.DataFrame({"mu": vs})
ax0 = sns.distplot(df["mu"], kde=False, bins=100, hist_kws=dict(alpha=0.5))