9.1 回归分析

9.1.1 相关性分析

  • 皮尔逊 (Pearson) 相关系数.

    $\bar X,\bar Y$ 为样本均值, $s_x,s_y$ 是样本方差.

    • Pearson 相关系数用于度量两个随机变量 $X,Y$ 的线性关系. 可近似估计 $\rho$ .
    • 取值范围: $[-1,1]$ , 绝对值越接近 1 , 则线性关系越强.
    • 对称性.
    • 原样本经过线性变换不影响 $r$ 值.
    • 不描述因果关系.
  • 对相关系数 $r$ 进行显著性检验

    构造统计量:

    若原假设成立, $t$ 值应小, 所以拒绝域为 $|t| > t_{\frac \alpha 2}(n-2)$.

  • 斯皮尔曼( Spearman ) 相关系数:

    将原始数据根据其在总体数据中的平均降序位置分配一个等级 ( rank ), 这些等级变量之间的 Pearson 相关系数就是 Spearman 相关系数.

    例子:

    image-20210502235007093

    根据右边表格, 按照下面公式计算 (皮尔逊相关系数展开就是这个):

9.1.2 一元线性回归分析

概述

对从总体 中抽取的一个样本
一元线性回归模型:

image-20210502235759134

根据样本估计 $\beta_0,\beta_1$, 记作 $\hat \beta_0,\hat\beta_1$, 称为 $y$ 关于 $x$ 的一元线性回归

一元线性回归要解决的问题

  • 参数估计
    • 的估计
    • $\sigma^{2}$ 的估计
  • 参数检验及模型应用
    • 线性假设的显著性检验
    • 回归系数 的置信区间
    • Y 的点估计

参数估计

  • $\beta_0,\beta_1$ 的估计 (采用最小二乘法)

    使 .

    其中 是偏差平方和 .

    求导令导数为零:

    整理一下, 得到正规方程系数行列式:

    记:

    可以由正规方程系数行列式得到等式:

    则 $\beta_0,\beta_1 $ 的最小二乘估计为

  • 误差 $\sigma^2$ 的估计

    残差: $e_i = y_i-\hat y_i$, 残差 $e_i$ 是 $\varepsilon_i$ 的估计.

    由于 $D(\varepsilon_i) = E(\varepsilon_i^2) = \sigma^2$

    想到用残差平方和估计随机误差项的方差, 经计算, $\sigma^2$ 的无偏估计为:

9.2 方差分析

9.2.1 单因素方差分析

1. 检验假设

用于推断两个或两个以上总体均值是否有差异的显著性检验.

  • 在方差分析中, 把所考察的试验结果称为试验指标.
  • 对试验指标产生影响的原因称为因素.
  • 因素的各个不同状态称为水平.

对于样本:

image-20210503000648946

各个样本间是独立的, 则

image-20210503000737757

检验假设:

假设检验采用的方法: 平方和分解:

  • 总偏差平方和 $S_T$:
  • 效应平方和:$S_A$:
  • 误差平方和$S_E$:

定理:

  1. $S_T = S_A+S_E$

  2. $\frac{S_{E}}{\sigma^{2}} \sim \chi^{2}(n-r)$

    证明:

    卡方分布可以叠加

单因素试验方差分析表:
单因素试验方差分析表

例: 保险公司为了解某一险种在四个不同地区索赔额情况是否存在差异。搜集了这四个不同地区一年的索赔额情况记录如表所示. 试判断在四个不同地区索赔额有无显著的差异?

  • 索赔额差异来源于两个方面:

    • 地区之间的差异
    • 同一地区内的随机因素
  • 因素: 地区

  • 水平: 四个不同的地区

  • 最终的方差分析表:

2. 未知参数的估计

  • .
  • .

3. 比较 在部分相等的情况, 比较的方法有两个

  • 作 $\mu_i - \mu_j(i \ne j)$ 的区间估计

    image-20210503001132577

    求得置信区间, 若置信区间包含零, 则认为没有显著差异.

  • 的假设检验

    构造检验统计量

    原假设成立时,

    拒绝域 $|t{ij}|\geq t{\alpha/2}(n-r)$

9.2.2 双因素试验的方差分析

9.2.3 双因素试验的方差分析

9.3 正交试验设计

极差分析

仅有一个例子

image-20210503001402429

$A,B,C$ 下每个单元格内容为该因素的水平.

image-20210503001443516

找到所有该因素对应水平下的试验指标, 求和填入. 可知 $A$ 因素影响最为显著, $C$ 最不显著. 最佳组合为 $A:3, B:1, C:1$