数据科学基础(二) 随机变量及其分布
2.1 随机变量
将样本空间 $\Omega$ 中的每个元素 e 与实数对应起来.
- 定义:
设随机试验的样本空间为 $S = {e}.\space X = X(e)$ 是定义在样本空间的实值单值函数. 称 $X = X(e)$ 为随机变量.
2.3 离散型随机变量及其分布律
离散型随机变量定义:
- 有限个
- 无限可列个
满足条件:
- $p_k\geq0,k=1,2…$
- $\sum^n_{k=1}p_k=1$
分布律:
也可以用表格:
2.4 连续型随机变量及其概率密度函数
- 定义:
对于非负可积函数$f(x)$,有
- 满足:
- $f(x) \geq 0$
- $\int^{-\infty}_{\infty}f(x)dx = 1$
- 取个别值概率为 0 , 则端点值有没有无所谓.
2.5 分布函数(对离散 连续均成立)
定义:
$F(x) = P(X \leq x)$,即 $X$ 取值不超过 $x$ 的概率,它是一个普通的实函数性质:
$0\leq F(X) \leq 1, x \in (-\infty,+\infty)$
$F(x)$ 不减, 即 $x_1 < x_2 \Rightarrow F(x_1)<F(x_2)$
利用这个性质, 有:
可以用来求参数
$F(x)$右连续,且至多有可列个间断点 . 若为离散型, 则 $F(x)$ 右连续, 若为连续性, 则 $F(x)$ 不仅右连续, 还是连续的.
以下公式对离散型和连续性均有用:
2.5.1 离散型的分布函数
- 由概率求分布函数:
$X$ | $-2$ | $0$ | $1$ | $3$ |
---|---|---|---|---|
$P$ | $\frac{1}{2}$ | $\frac{1}{4}$ | $\frac{1}{8}$ | $\frac{1}{8}$ |
由图可见,函数的每一段都是右连续的.
- 由分布函数求概率:
只需借助 $P{X=a}=F(a)-F(a-0)$.
2.5.2 连续型的分布函数
$F(x) = P{X \leq x}= \int_{-\infty}^{x}{f(x)}dx$
两边同时求导可得$F’(x)=f(x)$
2.6 几种分布
2.6.1 离散型的分布
1. 0-1分布
- 分布律
$X$ | $1$ | $0$ |
---|---|---|
$P$ | $p$ | $1-p$ |
- 特点:
- 只做一次
- 结果只有两种: $p{x=k}=p^k(1-p)^{1-k}$
- 期望$E(X)=p$
- 方差$D(X)=p-p^2$
2. 几何分布
$A$发生概率为 $p$ 即$P(A) = p$,第 $k$ 次试验首次发生, 则前 $k-1$ 次没有发生,
$P{X=k}= (1-p)^{k-1}p$,$X$~$G(p)$.
3. 二项分布
- $P(A) =p$,$n$次试验,发生 $k$ 次的概率是 $P{X=k}=C^k_np^k(1-p)^{n-k},k=1,2,3,…,n, X \sim B(n,p)$
- 期望$E(X)=np$
- 方差$D(X)= np(1-p)$ 推导:因为每次试验都是互相独立的,所以将每次的都加起来
4. 泊松分布
- 公式: $P{X=k}=\frac{\lambda^k}{k!}e^{- \lambda},k=0,1,2,3,…,\lambda>0,X$~$P(\lambda)$
- 证明概率和为1:
泰勒 - 适用范围:电台呼叫次数,公用设施(等车,摇号)
- 泊松分布近似二项分布:
- 适用范围:$n$ 较大,$p$ 较小, $np$ 适中的时候. 当 $n\rightarrow+\infty$ 时,$\lambda \rightarrow np$.
例题: 银行有 1000 个账户,每户存了 10 万元. 每户提 2 万的概率是 0.006, 则银行应至少准备多少现金,可以有 95% 的概率满足用户需求?
设有 $X$ 名用户来取钱,银行要准备 $x$ 万元现金
查表即可求得 $x/2 \geq 10$
5. 超几何分布
定义:一共有 $N$ 个元素, $N_1$ 个属于第一类,$N_2$ 个属于第二类,取 $n$ 个元素, $X$ 代表这 $n$ 个元素中属于第一类的个数.
超几何分布:不放回试验. 但当 $N$ 很大, $n$ 很小的时候, 可近似视为放回抽样, 此时可以用二项分布近似. 例子:
10000 粒种子, 发芽率 99%, 从中取出 10 粒, 有 k 粒发芽的概率:
2.6.2 连续型的分布
1. 均匀分布
- 密度函数满足:则 $x$ 服从均匀分布,记作 $x\sim \mathrm U[a,b]$
2. 指数分布
- 密度函数满足: 其中 $\theta>0$ 时, $X \sim \mathrm {Exp}(\theta)$
- 无记忆性: 举例说明: 已经买了 10 年的灯泡还能再用 1 年的概率与刚刚买的灯泡能再用一年的概率相等.直接按定义求积分可以证明.
3. 正态分布
密度函数:
记作
由 可以证明
分布函数:
性质:
$y=\phi(x)$ 是以 $x=\mu$ 为对称轴的钟形曲线. $x = \mu$时, $\phi(x)$ 最大值$\frac{1}{\sqrt{2\pi}\sigma}.$
$y=\phi(x)$ 以 $x$ 轴为渐近线. $x=\mu \pm \sigma$ 为拐点.
- $\sigma$ 固定,$\mu$ 变化, 图像左右移动;
$\mu$ 固定,$\sigma$ 变化, 图像最高点变化.
标准正态分布
- $\mu=0,\sigma=1.$
- 性质:
- 以 $y$轴为对称轴. 偶函数
- $\Phi_0(-x)=1-\Phi_0(x).$
举例: 身高体重,受多种因素影响,且每种因素影响都不大.
将一般的正态分布化为标准正态分布:
做题时可以直接修改要求的 $X$ ,如:
$\mu=1,\sigma=2,$则$P{-2 \leq X \leq 2}=P{\frac{-2-1}{2}\leq \frac{X-1}{2} \leq\frac{2-1}{2}}=\Phi_0(0.5)-\Phi_0(1.5)$
3 $\sigma$ 准则
$P{|X-\mu|<\sigma} =0.6826$$P{|X-\mu|<2\sigma} =0.9545$
$P{|X-\mu|<3\sigma} = 0.9973.$
$X\sim N(0,1)$,给定 $\alpha(0<\alpha<1)$,找出 $v_\alpha$ 使得
2.7 随机变量的函数的分布
2.7.1 离散型
已知 $X$ 服从某分布,求关于 $X$ 的函数 $Y$ 的分布.
例子:
则 $Y=(x-1)^2$ 的分布律为:
2.7.2 连续型
随机变量 $X$ 具有密度函数 $f_x(x)$ ,求$Y=g(X)$的密度函数.
步骤:
- $F_Y(x)\rightarrow F_x(x)$,注意 $F_Y(x) = p{Y \leq x},F_X(x) = p{X \leq x}$
- 两侧同时求导:$f_Y(x) \leftarrow f_X(x)$
例子 1:
$X$ 概率密度为 $f_X(x)$,求 $Y=3X+2$ 的概率密度.解:
两边同时求导:
例子 2:
$X\sim N(\mu,\sigma^2),Y=X^2,$ 求 $Y$ 的密度函数.
按照上面方法,最后积分即可
$Y$ 服从卡方分布定理
$X$ 服从 $(a,b)$ 内的均匀分布, 则 $Y=kX+c$ 也服从相应区间内的均匀分布.
- 当$k>0,(ka+c,kb+c)$
- 当$k<0,(kb+c,ka+c)$
- $X \sim N(\mu,\sigma^2)$,$Y=aX+b$,则 $Y\sim N(a\mu+b,a^2\sigma^2)$.
证明:可以用上面分布函数求积分的方法,也可以用
- $X \sim N(\mu,\sigma^2)$,$Y=aX+b$,则 $Y\sim N(a\mu+b,a^2\sigma^2)$.
若$X$ 的密度函数 $f_X(x)$,$Y=kX+b$,则$f_Y(x)=\frac{1}{|k|}f_x(\frac{x-b}{k})$