数据科学基础(二) 随机变量及其分布

📚 文档目录
随机事件及其概率
 随机变量及其分布
 期望和方差
 大数定律与中心极限定理
 数理统计的基本概念
 参数估计
 假设检验
 多维
 回归分析和方差分析
 降维

2.1 随机变量

将样本空间 $\Omega$ 中的每个元素 e 与实数对应起来.

定义:
设随机试验的样本空间为 $S = \{e\}.\space X = X(e)$ 是定义在样本空间的实值单值函数. 称 $X = X(e)$ 为随机变量.

2.3 离散型随机变量及其分布律

离散型随机变量定义:
- 有限个
- 无限可列个
满足条件:
- $p_k\geq0,k=1,2…$
- $\sum^n_{k=1}p_k=1$
分布律:
$P\{X = x_k\}=p_k,k=1,2...$
也可以用表格:
$\begin{array}{|c|c|c|c|c|c|} \hline X & x_{1} & x_{2} & \ldots & x_{n} & \ldots \\ \hline p_{k} & p_{1} & p_{2} & \ldots & p_{n} & \ldots \\ \hline \end{array}$

2.4 连续型随机变量及其概率密度函数

定义:
对于非负可积函数$f(x)$,有

$p\{a\ < x \leq b\}=\int^{a}_{b}f(x)dx.$ $p\{x<X<x+\Delta x\} \approx f(x) \cdot \Delta x, \Delta x\rightarrow 0$

满足:

$f(x) \geq 0$
$\int^{-\infty}_{\infty}f(x)dx = 1$
取个别值概率为 0 , 则端点值有没有无所谓.

2.5 分布函数(对离散连续均成立)

定义:
$F(x) = P(X \leq x)$,即 $X$ 取值不超过 $x$ 的概率,它是一个普通的实函数
性质:
1. $0\leq F(X) \leq 1, x \in (-\infty,+\infty)$
2. $F(x)$ 不减, 即 $x_1 < x_2 \Rightarrow F(x_1)<F(x_2)$
  利用这个性质, 有:
可以用来求参数

$F(x)$右连续,且至多有可列个间断点 . 若为离散型, 则 $F(x)$ 右连续, 若为连续性, 则 $F(x)$ 不仅右连续, 还是连续的.
以下公式对离散型和连续性均有用:
$\begin{array}{l} \text {。} P\{X \leq a\}=F(a)\\ 。P\{X>a\}=1-F(a)\\ 。P\{a<X \leq b\}=F(b)-F(a)\\ 。P\{X=a\}=F(a)-F(a-0) \text { 此处的 } 0 \text { 意为无穷小 }\\ 。 P\{a \leq X \leq b\}=F(b)-F(a-0)\\ 。 P\{X<a\}=F(a=0)\\ 。P\{X \geq a\}=1-F(a-0) \end{array}$

2.5.1 离散型的分布函数

由概率求分布函数:

$X$	$-2$	$0$	$1$	$3$
$P$	$\frac{1}{2}$	$\frac{1}{4}$	$\frac{1}{8}$	$\frac{1}{8}$

由图可见,函数的每一段都是右连续的.

由分布函数求概率:
只需借助 $P\lbrace X=a\rbrace=F(a)-F(a-0)$.

2.5.2 连续型的分布函数

$F(x) = P{X \leq x}= \int_{-\infty}^{x}{f(x)}dx$
两边同时求导可得$F’(x)=f(x)$

2.6 几种分布

2.6.1 离散型的分布

1. 0-1分布

分布律

$X$	$1$	$0$
$P$	$p$	$1-p$

特点:
- 只做一次
- 结果只有两种: $p{x=k}=p^k(1-p)^{1-k}$
期望$E(X)=p$
方差$D(X)=p-p^2$

2. 几何分布

$A$发生概率为 $p$ 即$P(A) = p$,第 $k$ 次试验首次发生, 则前 $k-1$ 次没有发生,
$P{X=k}= (1-p)^{k-1}p$,$X$~$G(p)$.

3. 二项分布

$P(A) =p$,$n$次试验,发生 $k$ 次的概率是 $P{X=k}=C^k_np^k(1-p)^{n-k},k=1,2,3,…,n, X \sim B(n,p)$
期望$E(X)=np$
方差$D(X)= np(1-p)$ 推导:因为每次试验都是互相独立的,所以将每次的都加起来

4. 泊松分布

公式: $P\{X=k\}=\frac{\lambda^k}{k!}e^{- \lambda},k=0,1,2,3,...,\lambda>0,X$~$P(\lambda)$
证明概率和为1:
泰勒 $:e^x=\sum_{k=0}^{\infty}\frac{x^k}{k!},\sum_{k=0}^{\infty}\frac{\lambda^k}{k!}e^{- \lambda}=e^{-\lambda}\sum_{k=0}^{\infty}\frac{\lambda^k}{k!}=e^{-\lambda} \cdot e^\lambda=1.$
适用范围:电台呼叫次数,公用设施(等车,摇号)
泊松分布近似二项分布:
- 适用范围:$n$ 较大,$p$ 较小, $np$ 适中的时候. 当 $n\rightarrow+\infty$ 时,$\lambda \rightarrow np$.

例题: 银行有 1000 个账户,每户存了 10 万元. 每户提 2 万的概率是 0.006, 则银行应至少准备多少现金,可以有 95% 的概率满足用户需求?
设有 $X$ 名用户来取钱,银行要准备 $x$ 万元现金

$\begin{aligned} \lambda =np=6\\ X\sim B(1000,0.006)\\ P\{2X \leq x\}\geq 0.95\\ \sum_{k=0}^{\frac{x}{2}}\frac{6^k}{k!}e^{-6} \geq 0.95\\ \end{aligned}$

查表即可求得 $x/2 \geq 10$

5. 超几何分布

定义：一共有 $N$ 个元素, $N_1$ 个属于第一类,$N_2$ 个属于第二类,取 $n$ 个元素, $X$ 代表这 $n$ 个元素中属于第一类的个数.
$P\{X=k\}= \frac{C_{N_1}^kC_{N_2}^{n-k}}{C^n_N},k=0,1,2,....min\{n,N_1\}$
超几何分布:不放回试验. 但当 $N$ 很大, $n$ 很小的时候, 可近似视为放回抽样, 此时可以用二项分布近似. 例子:

10000 粒种子, 发芽率 99%, 从中取出 10 粒, 有 k 粒发芽的概率:
$P\{X=k\}=\frac{C_M^{k}C_{10000-M}^{10-k}}{C_{10000}^{10}}\approx C_{10}^k0.99^k0.01^{10-k }$

2.6.2 连续型的分布

1. 均匀分布

密度函数满足: $f(x)=\begin{cases} \frac{1}{b-a},a \leq x \leq b \\ 0, else\\ \end{cases}$ 则 $x$ 服从均匀分布,记作 $x\sim \mathrm U[a,b]$

2. 指数分布

密度函数满足: 其中 $\theta>0$ 时, $X \sim \mathrm {Exp}(\theta)$
- 无记忆性: 举例说明: 已经买了 10 年的灯泡还能再用 1 年的概率与刚刚买的灯泡能再用一年的概率相等. $P\{X>s+t|X>s\} = P\{X>t\}$ 直接按定义求积分可以证明.

3. 正态分布

密度函数:
$\displaystyle \phi(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty< x <+\infty$
记作
$X \sim N(\mu,\sigma^2).$
由 $\displaystyle \int_{-\infty}^{+\infty}e^{-x^2}dx=\sqrt{\pi}$ 可以证明 $\displaystyle \int_{-\infty}^{+\infty}\phi(x)dx = 1.$
分布函数:
$\Phi(x)=\frac{1}{\sqrt{2\pi\sigma}}\int_{-\infty}^{x}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx$
性质:
1. $y=\phi(x)$ 是以 $x=\mu$ 为对称轴的钟形曲线. $x = \mu$时, $\phi(x)$ 最大值$\frac{1}{\sqrt{2\pi}\sigma}.$
2. $y=\phi(x)$ 以 $x$ 轴为渐近线. $x=\mu \pm \sigma$ 为拐点.
3. $\sigma$ 固定,$\mu$ 变化, 图像左右移动;
  $\mu$ 固定,$\sigma$ 变化, 图像最高点变化.
标准正态分布
- $\mu=0,\sigma=1.$
- 性质:
  - 以 $y$轴为对称轴. 偶函数
  - $\Phi_0(-x)=1-\Phi_0(x).$
举例: 身高体重,受多种因素影响,且每种因素影响都不大.
- 将一般的正态分布化为标准正态分布:
  $\begin{aligned} \phi(x)&=\frac{1}{\sigma}\phi_0(\frac{x-\mu}{\sigma})\\ \Phi(x)&=\Phi_0(\frac{x-\mu}{\sigma})\\ \end{aligned}$
  做题时可以直接修改要求的 $X$ ,如:
  $\mu=1,\sigma=2,$则$P{-2 \leq X \leq 2}=P{\frac{-2-1}{2}\leq \frac{X-1}{2} \leq\frac{2-1}{2}}=\Phi_0(0.5)-\Phi_0(1.5)$
3 $\sigma$ 准则
$P{|X-\mu|<\sigma} =0.6826$

$P{|X-\mu|<2\sigma} =0.9545$

$P{|X-\mu|<3\sigma} = 0.9973.$
$X\sim N(0,1)$,给定 $\alpha(0<\alpha<1)$,找出 $v_\alpha$ 使得
$p\{X>v_\alpha\}=\alpha,v_\alpha \text{为}\alpha \text{分位数}$

2.7 随机变量的函数的分布

2.7.1 离散型

已知 $X$ 服从某分布,求关于 $X$ 的函数 $Y$ 的分布.
例子:
$\begin{array}{|c|c|c|c|c|} \hline X & -1 & 0 & 1 & 2 \\ \hline p_{k} & 0.2 & 0.3 & 0.1 & 0.4 \\ \hline \end{array}$
则 $Y=(x-1)^2$ 的分布律为:
$\begin{array}{|c|c|c|c|} \hline Y & 0 & 1 & 4 \\ \hline p_{k} & 0.1 & 0.7 & 0.2 \\ \hline \end{array}$

2.7.2 连续型

随机变量 $X$ 具有密度函数 $f_x(x)$ ,求$Y=g(X)$的密度函数.
步骤:
1. $F_Y(x)\rightarrow F_x(x)$,注意 $F_Y(x) = p{Y \leq x},F_X(x) = p{X \leq x}$
2. 两侧同时求导:$f_Y(x) \leftarrow f_X(x)$
例子 1:
$X$ 概率密度为 $f_X(x)$,求 $Y=3X+2$ 的概率密度.

解:
$\begin{aligned} F_Y(x)&= P\{Y \leq x\}=P\{3X+2 \leq x\}\\ &=P\{X \leq \frac{x-2}{3}\}\\ &=F_X(\frac{x-2}{3})\\ \end{aligned}$
两边同时求导:
$\begin{aligned} f_Y(x)&=\frac{1}{3}f_X(\frac{x-2}{3})\\ \end{aligned}$
例子 2:
$X\sim N(\mu,\sigma^2),Y=X^2,$ 求 $Y$ 的密度函数.
按照上面方法,最后积分即可
$Y$ 服从卡方分布
定理
1. $X$ 服从 $(a,b)$ 内的均匀分布, 则 $Y=kX+c$ 也服从相应区间内的均匀分布.
  - 当$k>0,(ka+c,kb+c)$
  - 当$k<0,(kb+c,ka+c)$
    1. $X \sim N(\mu,\sigma^2)$,$Y=aX+b$,则 $Y\sim N(a\mu+b,a^2\sigma^2)$.
      证明:可以用上面分布函数求积分的方法,也可以用
2. 若$X$ 的密度函数 $f_X(x)$,$Y=kX+b$,则$f_Y(x)=\frac{1}{|k|}f_x(\frac{x-b}{k})$