数据科学基础(六) 参数估计
6.1. 参数的点估计
- 总体分布 X 的分布形式已知,未知的只是分布中的参数,要估计的只是参数或者参数的某一函数.
6.1.1. 矩估计法
公式
注意: 样本阶中的计算都是 $n$ 而不会用到样本方差 $S^2$
6.1.2. 极大似然估计
估计参数值,使得出现该样本的可能性最大.
(离散型) (连续型)则 似然函数:
令 $L’(\theta)=0$(等价于$(\ln(L(\theta)))’=0$),得到一阶导函数零点,进而求得最大值.
注意: 可能求出多个可能的 $p$, 保证样本每一项的概率都为正进行舍去.
6.2. 点估计的优良性准则
1. 无偏性
令 $\hat{\theta}$ 为参数 $\theta$ 的估计量 $t$, 定义:如果对一切 $\theta \in \Theta$, 有 $E\hat{\theta}=\theta$ 成立,则称 $\hat\theta$ 为参数 $\theta$ 的无偏估计量.
例1: 总体 $X$ ,$EX=\mu,DX=\sigma^2$,样本为$(X_1,X_2\ldots X_n)$,则
- $\bar{X}$ 是$\mu$ 的无偏估计.
- 样本方差 $S^2$ 是 $\sigma^2$ 的无偏估计.
- 非修正样本方差是 $\sigma^2$ 的有偏估计.
注意:例1 永远成立, 与总体分布类型无关.
例2: $S^2$ 是 $\sigma^2$ 的无偏估计, $S$ 不一定是 $\sigma$ 的无偏估计.
可得到结论: $\hat\theta$ 是 $\theta$ 的无偏估计, $g(\hat{\theta})$ 不一定是 $\theta$ 的无偏估计.
证明:
例3:$\quad \mathcal{\mu}= EX. \quad\left(X{1}\cdots X{n}\right)$
$\hat{\mu}=C{1} X{1}+\cdots+C{n} X{n}$
$C{1}+C{2}+\cdots +C_{n}=1$
则 $\hat\mu$是$\mu$ 的无偏估计
2. 有效性
- $D\left(\hat{\theta}{1}\right) \leq D\left(\hat{\theta}{2}\right)$ 方差越小越有效
- 例: 可以证明, $D(X_i) \geq D(\bar{X}), D(a_1X_1+a_2X_2\cdots a_nX_n) \geq D(\bar{X})$
3. 相合性(一致性)
- $\displaystyle\lim _{n \rightarrow+\infty} p(|\hat{\theta}-\theta|<\varepsilon)=1$
6.3. 参数的区间估计
- 找两个估计量 $\hat\theta_1,\hat\theta_2(\hat\theta_1 < \hat\theta_2)$ 为端点的区间$[\hat\theta_1,\hat\theta_2]$ 来估计$\theta.$
- 可靠度: 要求区间以很大的可能性包含 $\theta$ ,即 $P{\hat\theta_1 <\theta <\hat\theta_2}.$要尽可能大
- 精度: 精度要尽可能高,即区间长度要尽可能小.
6.3.1. 置信区间和枢轴变量
置信区间
定义:
- 对于给定的 $\alpha(0<\alpha<1),$ 如果 则称区间$[\hat\theta_1,\hat\theta_2]$为置信区间$, 1-\alpha$为置信度(置信系数),$\hat\theta_1,\hat\theta_2$ 分别被称为置信下限和置信上限.其中 $\alpha$ 一般取 0.05.
注意: 求置信区间, 就是找一个区间能够 “框住” $\theta$ , 因为 $\theta$ 虽然未知,却是确定的.
枢轴变量
- $I=I(T,\theta)$,其中,$\theta$ 是未知的待估参数, $T$ 是已知的与 $\theta$ 有关的统计量, $I$ 服从的分布 $F$ 已知且与 $\theta$ 无关.
- 给定 $1-\alpha$ , 确定 $F$ 的上 $\frac \alpha 2$ 分位数 $u{\frac \alpha 2}$ 和上 $(1-\frac \alpha 2)$ 分位数$u{1-\frac \alpha 2}$
- $P{u{\frac \alpha 2}\leq I(T,\theta)\leq u{\frac \alpha 2}} = 1-\alpha$, 据此可以求得置信区间.
6.3.2. 单正态总体参数的区间估计
估计 $\mu$
- $\sigma^2$ 已知
- 枢轴变量 $U = \displaystyle\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$, 然后查表求得 $u\frac \alpha 2$ 再根据对称求得 $u{1 - \frac \alpha 2}.$
- $\sigma^2$ 未知
- 枢轴变量 $U = \displaystyle\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$
估计 $\sigma^2$
- $\mu$ 已知
- 枢轴变量 $U=\displaystyle\frac{1}{\sigma^{2}} \sum{i=1}^{n}\left(X{i}-\mu\right)^{2} \sim \chi ^{2}(n)$
- $\mu$ 未知
- 枢轴变量 $U=\displaystyle \frac{(n-1) S^{2}}{\sigma^{2}} \sim \chi ^{2}(n-1)$
- 注意卡方分布图像不是对称的,所以上分位点必须求两个.
6.3.2. 双正态总体参数的区间估计
估计均值差 $\mu_1-\mu_2$
$\sigma_1^2,\sigma_2^2$ 已知
- 枢轴变量
$\sigma_1^2=\sigma_2^2=\sigma^2$ 未知
- 枢轴变量$T=\displaystyle\frac{(\bar{X}-\bar{Y})-\left(\mu{1}-\mu{2}\right)}{\sqrt{\frac{\left(n{1}-1\right) S{1}^{2}+\left(n{2}-1\right) S{2}^{2}}{\left(n{1}+n{2}-2\right)}} \sqrt{\frac{1}{n{1}}+\frac{1}{n{2}}}} \sim t\left(n{1}+n{2}-2\right)$
估计方差比 $\displaystyle{\sigma^2_1}/{\sigma^2_2}$
- $\mu_1,\mu_2$ 未知
- 枢轴变量 $\displaystyle\frac{S{1}^{2} / \sigma{1}^{2}}{S{2}^{2} / \sigma{2}^{2}} \sim F\left(n{1}-1 , n{2}-1\right)$