チェビシェフの不等式について
概要
- 標準偏差がわかると一定以上の値のサンプルがどれくらいの割合で存在するかがわかる
導出
\[\sigma^2 = \int_{-\infty}^{\infty} (x-\mu)^2f(x) dx \\ \geq \int_{-\infty}^{\mu-k\sigma} (x-\mu)^2f(x) dx + \int_{\mu+k\sigma}^{\infty} (x-\mu)^2f(x) dx \\ \geq k^2\sigma^2 \left( \int_{-\infty}^{\mu-k\sigma} f(x) dx + \int_{\mu+k\sigma}^{\infty} f(x) dx \right) \\ = k^2\sigma^2 \left(P(X < \mu-k\sigma) + P(X > \mu+k\sigma) \right) \\ = k^2 \sigma^2 P(|X - \mu| \geq k\sigma)\]よって
\[P(|X - \mu| \geq k\sigma) \leq \frac{1}{k^2}\]例
平均1000文字、標準偏差200の文章は
\(k=2\)のとき、\(1-\frac{1}{4} = 0.75 = 75%\)で\(600 \leq X \leq 1400\)
\(k=3\)のとき、\(1-\frac{1}{9} = 0.88 = %\)で\(400 \leq X \leq 1600\)
この不等式では\(k=1\)では参考にならない