• home
  • about
  • 全ての投稿
  • ソフトウェア・ハードウェアの設定のまとめ
  • 分析関連のまとめ
  • ヘルスケア関連のまとめ
  • 生涯学習関連のまとめ

中心極限定理

date: 2022-03-23 excerpt: 中心極限定理について

tag: python機械学習統計中心極限定理


中心極限定理について

概要

  • 母集団がどのような確率分布に従うとしても、標本の数を十分大きくしたときには、その合計値あるいは標本平均は、正規分布に従う

定式

標本の合計

\[N(n \mu,n\sigma^2)\]
  • \(n\); 合計した確率分布の数
  • \(\mu\); n個の標本の平均
  • \(\sigma^2\); n個の標本の分散

標本の平均

\[N(\mu, \frac{\sigma^2}{n})\]
  • \(n\); 合計した確率分布の数
  • \(\mu\); n個の標本の平均
  • \(\sigma^2\); n個の標本の分散

表現

  • 区間推定で用いられる式を導出できる表現を用いて表される
\[\begin{equation*} \lim_{n \rightarrow \infty} \Pr \left( \frac{\overline{X}_n - \mu}{\sigma / \sqrt{n}} \leq \alpha \right) = \int_{-\infty}^{\alpha} \frac{1}{\sqrt{2} \pi} e^{- \frac{x^2}{2}} dx \end{equation*}\]

実験

  • 適当に一様分布を10個取りこれの平均を計算する(n=10)
  • これを10e+5回施行した場合のヒストグラムを確認する
  • 定理が正しいのであれば\(N(\mu, \frac{\sigma^2}{n})\)の分布に従うはずである
import random
import pandas as pd
import numpy as np
vs =[] 
for i in range(10**5):
    v = np.random.random(10).mean()
    vs.append(v)
df = pd.DataFrame({"mu": vs})

ax0 = sns.distplot(df["mu"], kde=False, bins=100, hist_kws=dict(alpha=0.5))

Google Colab

  • 中心極限定理-example

参考

  • 中心極限定理/TauStation


python機械学習統計中心極限定理 Share Tweet