数据科学基础(九) 回归分析和方差分析
9.1 回归分析
9.1.1 相关性分析
皮尔逊 (Pearson) 相关系数.
$\bar X,\bar Y$ 为样本均值, $s_x,s_y$ 是样本方差.
- Pearson 相关系数用于度量两个随机变量 $X,Y$ 的线性关系. 可近似估计 $\rho$ .
- 取值范围: $[-1,1]$ , 绝对值越接近 1 , 则线性关系越强.
- 对称性.
- 原样本经过线性变换不影响 $r$ 值.
- 不描述因果关系.
对相关系数 $r$ 进行显著性检验
构造统计量:
若原假设成立, $t$ 值应小, 所以拒绝域为 $|t| > t_{\frac \alpha 2}(n-2)$.
斯皮尔曼( Spearman ) 相关系数:
将原始数据根据其在总体数据中的平均降序位置分配一个等级 ( rank ), 这些等级变量之间的 Pearson 相关系数就是 Spearman 相关系数.
例子:
根据右边表格, 按照下面公式计算 (皮尔逊相关系数展开就是这个):
9.1.2 一元线性回归分析
概述
对从总体 中抽取的一个样本
一元线性回归模型:
根据样本估计 $\beta_0,\beta_1$, 记作 $\hat \beta_0,\hat\beta_1$, 称为 $y$ 关于 $x$ 的一元线性回归
一元线性回归要解决的问题
- 参数估计
- 的估计
- $\sigma^{2}$ 的估计
- 参数检验及模型应用
- 线性假设的显著性检验
- 回归系数 的置信区间
- Y 的点估计
参数估计
$\beta_0,\beta_1$ 的估计 (采用最小二乘法)
求 使 .
其中 是偏差平方和 .
求导令导数为零:
整理一下, 得到正规方程系数行列式:
记:
可以由正规方程系数行列式得到等式:
则 $\beta_0,\beta_1 $ 的最小二乘估计为
误差 $\sigma^2$ 的估计
残差: $e_i = y_i-\hat y_i$, 残差 $e_i$ 是 $\varepsilon_i$ 的估计.
由于 $D(\varepsilon_i) = E(\varepsilon_i^2) = \sigma^2$
想到用残差平方和估计随机误差项的方差, 经计算, $\sigma^2$ 的无偏估计为:
9.2 方差分析
9.2.1 单因素方差分析
1. 检验假设
用于推断两个或两个以上总体均值是否有差异的显著性检验.
- 在方差分析中, 把所考察的试验结果称为试验指标.
- 对试验指标产生影响的原因称为因素.
- 因素的各个不同状态称为水平.
对于样本:
各个样本间是独立的, 则
记
检验假设:
假设检验采用的方法: 平方和分解:
- 总偏差平方和 $S_T$:
- 效应平方和:$S_A$:
- 误差平方和$S_E$:
定理:
$S_T = S_A+S_E$
$\frac{S_{E}}{\sigma^{2}} \sim \chi^{2}(n-r)$
证明:
卡方分布可以叠加
单因素试验方差分析表:
例: 保险公司为了解某一险种在四个不同地区索赔额情况是否存在差异。搜集了这四个不同地区一年的索赔额情况记录如表所示. 试判断在四个不同地区索赔额有无显著的差异?
索赔额差异来源于两个方面:
- 地区之间的差异
- 同一地区内的随机因素
因素: 地区
水平: 四个不同的地区
最终的方差分析表:
2. 未知参数的估计
- .
- .
3. 比较 在部分相等的情况, 比较的方法有两个
作 $\mu_i - \mu_j(i \ne j)$ 的区间估计
求得置信区间, 若置信区间包含零, 则认为没有显著差异.
做 的假设检验
构造检验统计量
原假设成立时,
拒绝域 $|t{ij}|\geq t{\alpha/2}(n-r)$
9.2.2 双因素试验的方差分析
略
9.2.3 双因素试验的方差分析
略
9.3 正交试验设计
极差分析
仅有一个例子
$A,B,C$ 下每个单元格内容为该因素的水平.
找到所有该因素对应水平下的试验指标, 求和填入. 可知 $A$ 因素影响最为显著, $C$ 最不显著. 最佳组合为 $A:3, B:1, C:1$