数据科学基础(八) 多维
8.1 多维概率分布
分布函数: $F(x,y) = P{X \leq x,Y \leq y}$
密度函数: $\displaystyle f(x,y) = \frac{\partial F}{\partial x\partial y}$
边缘分布: 设 $(X, Y)$ 为二维随机变量,称一维随机变量 $X$ 或 $Y$ 的概率分布为二维随机变量 $(X, Y)$ 关于 $X$ 或 $Y$ 对应的边缘分布; 分别记作: $F{X}(x), F{Y}(y)_{}$
二维离散型边缘分布率:
设二维随机变量 $(X, Y)$ 的分布律为 $p_{i j},$ 那么对千随机变量 $X, Y$ 其各自的分布律对于固定的 $i, j=1,2, \cdots,$ 满足
则称 $p_{i} .$ 为随机变量 $(X, Y)$ 的边缘分布律。
二维连续型的边缘概率密度:
设二维随机变量$(X,Y)$的概率密度为$f(x,y)$, 由于
则
二维离散随机变量的条件概率:
设 $(X, Y)$ 是二维离散型随机变量,其分布律为 其边缘概率分别为 $p{i}, p{\cdot j} .$ 则条件概率定义为
独立性: 联合概率 = 边缘概率相乘
几乎处处成立, 则随机变量$X,Y$是相互独立的
也可以用 $f(x,y)$ 可分离判断.
8.2 $\chi^2$ 独立性检验
假设两个随机变量 $X,Y$, 给定显著性水平 $\alpha$ , 检验非参数假设:
$H_0: X,Y$ 相互独立, $H_1: X,Y$ 不相互独立
若随机变量 $X,Y$ 独立, 则联合概率 = 边缘概率$\times$边缘概率. 即, 若原假设 $H_0$ 成立, 那么实际联合概率(相对应的经验频数)和理论联合概率,即边缘概率之积(相对应的理论频数)不会相差很大. 构造下方的统计量.
其中经验频数 , 理论频数, 当 充分大时, 近似服从 分布:
若 $H_0$ 假设成立, 则经验频数和理论频数相差不应该太大, 所以拒绝域为: