数据科学基础(四) 大数定律与中心极限定理
4.1 大数定律
- 大量重复实验的平均结果的稳定性.
4.1.1. 马尔可夫不等式
$P\left{X\geq a\right}\leq\displaystyle\frac{EX}{a}$
证明:$EX=\displaystyle\int_0^{\infty}xf(x)dx=\int_a^{\infty}xf(x)dx+\int_0^{a}xf(x)dx\geq\int_a^{\infty}xf(x)dx\geq\int_a^{\infty}af(x)dx=a P\left{X\geq a\right}$
4.1.2. 切比雪夫不等式
定理: 若 $EX$ 和 $DX$ 均存在, $\forall \epsilon >0$,均有 ${|X-EX|\geq \epsilon } \leq \frac{DX}{\epsilon ^2}$
证明:
4.1.3. 切比雪夫大数定律
- 依概率收敛: $X_n \rightarrow a$, $\forall \epsilon >0,∃ N>0$ 使得当 $n>N$ 时,有 $\left{|X_n-a| \leq \epsilon \right}=1$
伯努利大数定律
$n$ 重伯努利试验, $A$ 发生了 $m_n$ 次, $P$ 为概率,则
证明:
切比雪夫大数定律
$X1,…,X_n$ 是不相关(没有线性关系)的变量,$EX_i$ 和 $DX_i$ 均存在,且方差有界,,$DX_i \leq M$, 则 $\forall\epsilon >0$ ,有$\displaystyle\lim{n\rightarrow\infty}P\left{|\frac{1}{n}\displaystyle\sum{i=1}^{n}X_i-\frac{1}{n}\displaystyle\sum{i=1}^{n}EX_i|<\epsilon \right}=1$
证明:
辛钦大数定律
$X1,…,X_n$ 是独立同分布的变量,$EX_i=\mu$,( 注:方差无要求 ) , 则 $\forall\epsilon >0$ ,有$$\displaystyle\lim{n\rightarrow\infty}\left{|\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i-\mu|<\epsilon \right}=1$$
证明: 同样可用切比雪夫不等式.
4.2 中心极限定理
现象由大量相互独立的因素影响, 大量独立同分布的变量和极限分布是正态分布.
定理: 随机变量 $X1, X_2,…,X_n$ 独立同分布, 且 $E(X_i)=\mu,D(X_i)=\sigma^2>0(i=1,2,3…),$则随机变量之和$\displaystyle\sum{i=1}^{n}X_i$的标准化变量
的分布函数 $F_n(x)$ 对于任意 x 满足
可以改写成
或者
- e.g. 顾客有$100$人,在 $[0,60]$ 内均匀分布,独立,日销售额超 3500 概率为.