数据科学基础(七) 假设检验
7.1. 假设检验
7.1.1. 假设检验问题
- 参数估计:讨论如何根据样本得到总体分布所含参数的优良估计.
- 假设检验:讨论怎样在样本的基础上观察上面所得到的估计值与真实值之间在统计意义上相拟合,从而做出一个有较大把握的结论.
- 例子: 设菜厂生产一种灯管,其寿命X $\sim \mathrm{N}(\mu, 40000),$ 从过去较长一段 时间的生产情况看,灯管的平均寿命为 1500 小时,现在使用了新工艺后,在所生产的灯管中抽取25只,测得的平均寿命为1675 小时,问:采用新工艺后,灯管的寿命是否有显著提高?
为了判别新产品的寿命是否显著提高,提出两个假设:- 原假设 $H_0:$
- 新产品的寿命 $\mu=1500$
- 接受 $H_0:$ 新产品寿命没有提高
- 备择假设 $H_1:$
- 新产品的寿命 $\mu > 1500$
- 拒绝 $H_0:$(接受$H_1$) 新产品的寿命有所提高.
- 注意:一般情况下,将希望成立的假设设为 $H_1$ ,将其否定形式设为 $H_0$
- 原假设 $H_0:$
- 假设检验问题的处理方法
- 作出参数或者分布的假设.
- 根据样本值选择接受还是拒绝所作假设的结论.
7.1.2. 基本概念
- 假设: 对总体分布的各种论断
- 参数假设: 对总体分布中参数的假设
- 非参数假设: 不是关于总体分布中的参数的假设(如对分布的假设)
- 假设检验: 判断假设是否成立
- 参数假设检验
- 非参数假设检验
- 假设检验问题
- 过程
- 对总体分布中的某些参数或对总体分布的类型做某种假设.
- 根据样本值做出接受还是拒绝所作假设的结论.
- 分类
- 只提出一个假设,显著性检验问题.
- 提出两个假设($H_0,H_1$),且两者必居其一,则称其中一个为基本假设,另一个为它的对立假设.
- 过程
7.1.3 基本思想
- 由样本构造用于检验 $H_0$ 的检验统计量 $T$, 并且当 $H_0$ 成立的时候, $T$ 的分布已知.
- 检验法则的确定
- 是一个小概率事件.若 $H_0$ 为真, 几乎不可能发生.
- 若 $|T| \geq {k}$, 拒绝原假设 $H_0$,此时 $T$ 的取值范围被称为拒绝域.拒绝域的边界点为临界点.
- 若 $|T| < {k}$, 接受原假设 $H_0. $
- 一般步骤
- 第一步 根据问题的要求提出原假设 $H{0}$ 和备择假没 $H{1}$
- 第二步 选取检验统计量 $T\left({X{1}, X{2}, \ldots, X{n}}\right),$ 在 $H{0}$ 成立的情形下确定 其分布.
- 第三步 对于给定的显著性水平 $\alpha$,找到 $H_{0}$ 的拒绝域 $W$ 和接受域.
- 第四步 根据样本值 $\left(x{1}, x{2}, \ldots, x{n}\right)$ 求出检验统计值 $T,$ 如果 $\left(x{1}, x{2}, \ldots, x{n}\right) \in \mathrm{W}\left(\right.$ 小概率事件发生了), 则拒绝 $\mathrm{H}{0},$ 否则接受 $\mathrm{H}{0}$
7.1.4. 假设检验中的两类错误
- 第一类错误: 弃真
- 第二类错误: 取伪
7.2. 参数假设检验
7.2.1 单总体 Z 检验
(1) 建立于均值的备择假设和原假设,选定合适的显著性水平$\alpha$。
(2)建立检验统计量乙,满足Z $\sim \mathrm{N}(0,1),$ 根据样本数据计算检验统计量数值Z。
(3)根据检验统计量数值 Z 和显著性水平$\alpha$,计算拒绝域。
(4)根据样本是否落入拒绝域作出判断, 有需要可以进一步输出 p 值(比样本观察更极端的概率)。
例题:
一种机床加工的零件尺寸绝对平均误差为1.35mm。生产厂家现采用一种新的
行加工以期进一一步降低误差。为检验新机床加工的零件平均误差与旧机床相比
是否有显著降机床进尺寸的平均误差与旧机床相比是否有显著降低?
(a=0.01)尺寸的平均误差与旧机床相比是否有显著降低?($\alpha$=0.01)
解:
建立假设: $\quad H{0}: \mu \geq 1.35, H{1}: \mu<1.35$
$\bar{x}=1.3152, s=0.365749, n=50,$ 计算检验统计量:
结论:拒绝 $\mathrm{H}_{0^{\circ}}$ 新机床加工的零件尺寸的平均误差与旧机床相比有显著降低。
计算p值
根据p值和 我们可以得到同样的结论:拒绝H $_{0}$ 。
PS: 这道题中样本总体方差是未知的, 本来应该用 t 检验, 但是在样本容量大于 30 的时候可以用 Z 检验代替 t 检验, 所以此处直接用样本方差代替了总体方差.
7.2.2. 双总体Z检验
1.检验条件: 两个总体近似服从正态分布且两总体方差$\sigma_1^2 ,\sigma_2^2$ 均已知, 则构造的统计量$Z = \frac{(\bar{X}-\bar{Y})-\delta}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}}\sim N(0,1)$
2.检验条件:两个总体不服从正态分布,但来自两总体的样本的容量较大 $\left(n{1}, n{2} \geqslant 30\right){\circ}$ 则我们构造检验统计量Z如下: $\quad Z=\frac{(\bar{X}-\bar{Y})-\delta}{\sqrt{S{1}^{2} / n{1}+S{2}^{2} / n_{2}}} \sim \mathrm{N}(0,1)$
7.2.3. 单总体 t 检验
t检验的基本步骤:
(1)建立关于均值的备择假设和原假设,选定合适的显著性水平$\alpha$。
(2)建立检验统计量t,满足t $\sim \mathrm{t}\left(n^{\prime}\right),$ 根据样本数据计算检验统计量数值t。
(3) 根据检验统计量数值t和显著性水平$\alpha$,计算拒绝域。
(4) 根据样本是否落入拒绝域作出判断,如有需要可以进一步输出值。
7.2.4.双总体 t 检验
公式参照参数估计
7.2.5. 卡方检验
$\chi^{2}$ 检验的基本步骤:
(1) 进立关于方差的备择假设和原假设, 选定合适的显著性水平 $\alpha_{\circ}$
(2) 建立检验统计量 $\chi^{2},$ 满足 $\chi^{2} \sim \chi^{2}\left(n^{\prime}\right)^{1},$ 根据样本数据计算检验统计量数值 $\chi^{2}$ 。
(3) 根据检验统计量数值 $\chi^{2}$ 和显著性水平 $\alpha,$ 计算拒绝域。
(4) 根据样本是否落入拒绝域作出判断, 如有需要可以进一步输出 $p$ 值。
例题: 生产的某型号电池,其寿命服从方差 $\sigma^2=5000$ 的正态分布.随机取26个电池,测出样本方差为 $\mathrm{s}^{2}=9200,$ 问能否推断波动较以往显著变化 $(\alpha=0.02)$ ?
7.2.6. F检验
原理与上面的类似, 公式参照参数估计
7.3. 非参数假设检验
7.3.1 符号检验
例: 某地 16 座预售楼盘均价如下表 ( 单位: 元/平方米 )
判断楼盘价格与媒体公布的 7900元/平方米是否相符($\alpha = 0.05$)
若用 $t$ 检验来做, 是无法拒绝原假设 $H_0: \mu = 7900$ 的, 但是样本中只有 3 个大于 7900, 此时用平均值并不能很好地衡量总体, 因此考虑用中位数.
建立假设:
$Mc$ 为总体中位数, $n{+} , n-$ 分别为大于小于 $7900$ 样本的个数. $H0$ 若为真, $n+ , n_-$
近似相等, 即$n+$ 不能太大也不能太小. 因此对 $n+$ 进行检验:
$n{+}=\sum{i=1}^{n} Y{i}.$ 中 $Y{i} \sim B(1, p), n{+} \sim B(n, p), p=P{X{i} \geq M_{e}}$, 做如下假设:
抽到样本 $n_{+} =3 $ 甚至更为极端的概率为:
则 p 值就是 0.0213, 由$\mathrm {p} = 0.0213<\alpha = 0.05$, 拒绝原假设, 认为总体中心与 7900 在统计意义上存在显著差异.
7.3.2 秩和检验
两个连续性总体的密度函数至多只差一个平移. 秩和检验可以用于判断两个样本是否来自同一总体.
各项假设:
步骤( 以双边检验为例 ):
将两个样本的观察值按从小到大排序, 求出每个观察值的秩. (总是假定样本容量 $n_1 \leq n_2$)
将属于第 1 个样本的总体的秩总和记为 $R_1$ ,其余观察值的秩记为 $R_2$.
考虑统计量 $R_1$ , 查表得 $C_U(\frac \alpha 2)$ 和 $C_L(\frac \alpha 2)$ , 则拒绝域为 $R_1\leq C_U(\frac \alpha 2)$ 或者 $R_1\geq C_L(\frac \alpha 2)$
*若 $n_1,n_2 \geq 10$, 当 $H_0$ 为真的时候, 近似地有:
可以采用 $Z$ 检验.
7.3.3. 偏度峰度检验
7.3.4.卡方拟合优度检验
判断一组样本是否服从某种分布, 可进行卡方拟合优度检验, 首先 当然需要设置$H_0,H_1$.
其中, 将样本分为 $k$ 个组, $T_i$是每组的理论频数, $T_i=nP_i$, $P_i$ 是每组的理论频率, $O_i$ 是每组观测的频数
如果理论分布有 $r$ 个位置参数用估计量代替, 则$n-> \infty, \chi^2\sim \chi^2(k-r-1)$