数据科学基础(九) 回归分析和方差分析
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维
9.1 回归分析9.1.1 相关性分析
皮尔逊 (Pearson) 相关系数.
r=\frac{1}{n-1}\sum_{i=1}^{n}\frac{(X_i-\bar X)(Y_i-\bar Y)}{s_Xs_Y}$\bar X,\bar Y$ 为样本均值, $s_x,s_y$ 是样本方差.
Pearson 相关系数用于度量两个随机变量 $X,Y$ 的线性关系. 可近似估计 $\rho$ .
取值范围: $[-1,1]$ , 绝对值越接近 1 , 则线性关系越强.
对称性.
原样本经过线性变换不影响 $r$ 值.
不描述因果关系.
对相关系数 $r$ 进行显著性检验
H_0:\rho = 0, H_1:\rho\neq 0构造统计量:
\begin{aligned}\\
t&=\frac{r}{S_r}\sim t(n-2), S_r = \sqrt{\frac {1-r^2}{n-2} }
\end{aligned}若原假 ...
数据科学基础(十) 降维
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维
10.1 主成分分析(PCA)不懂线性代数, 下面这些参考了一些 PCA 的说明, 但我总觉得某些解释的不是很严谨.
目标PCA 常用于高维数据的降维,可用于提取数据的主要特征分量.
对于原始数据矩阵
A=\begin{bmatrix}
x_{11} &x_{12} & \cdots & x_{1n}\\
x_{21} &x_{22} & \cdots & x_{2n}\\
\vdots & \vdots & \cdots &\vdots \\
x_{r1} &x_{r2} & \cdots & x_{rn}\\
\end{bmatrix}其中, 列向量(x_{1i},x_{2i},\cdots,x_{ri})^T 为 $n$ 个样本中的一个. $r$ 行表示 $r$ 个维度.
对该矩阵进行中心化,得到中心化矩阵 $X$
X 中心化后, 样本点的中心点即原点, 寻找点分散程度最大的方向, 即让这些点投影后的分散程度最大.
...
计算机组织结构 合集
📖 本笔记参考计算机组织结构课程的课件, 由于时间关系, 后期缺失部分内容
📚 文档目录合集-数的二进制表示-定点运算-BCD 码-浮点数四则运算-内置存储器-Cache-外存-纠错-RAID-内存管理-总线-指令集: 特征- 指令集:寻址方式和指令格式
系统概述
指令和数据在关机时储存在外存中,开机后存储在内存
冯·诺依曼计算机工作方式的基本特点是按地址访问指令并自动按序执行程序
指令由操作码和地址码组成
控制器通过执行指令来控制整个机器运行
注意对存储器来讲,例如 $32K\times16位$的存储器意为,该存储器为 16 位可寻址, 共有 32K 个存储单元, 若对于芯片来讲,不能得到什么信息
结构 ( Architecture ) :对程序员可见
对于程序的逻辑执行有着直接影响
例如: 该计main算机有无乘法器
组织 ( Organization ) : 对程序员不可见
操作单元及其相互联系
该计算机中的乘法器是如何实现的
Stored Program: 意为将指令、数据以二进制的方式存储到主存中.摩尔定律: 每 18 个月,晶体管的数量增加一倍,价格下降 ...
计算机组织结构(一) 数的二进制表示
📚 文档目录合集-数的二进制表示-定点运算-BCD 码-浮点数四则运算-内置存储器-Cache-外存-纠错-RAID-内存管理-总线-指令集: 特征- 指令集:寻址方式和指令格式
二进制补码整数补数:负数加模得补数,负数的补数和负数的绝对值相加等于模
浮点数小密 大稀疏
计算机组织结构(二) 定点运算
📚 文档目录合集-数的二进制表示-定点运算-BCD 码-浮点数四则运算-内置存储器-Cache-外存-纠错-RAID-内存管理-总线-指令集: 特征- 指令集:寻址方式和指令格式
1. 移位运算1.算数移位
符号位不变, 左移相当于乘以 2, 右移相当于除以 2(左侧全补符号位).
2. 逻辑移位
无符号数的移位, 右移时永远在高位填 0.
2. 加法运算1. 全加器
$𝑆𝑖=𝑋𝑖⊕𝑌𝑖⊕𝐶{𝑖−1}$
$𝐶𝑖=𝑋𝑖𝐶{𝑖−1}+𝑌𝑖𝐶{𝑖−1}+𝑋𝑖𝑌_𝑖$
2. Serial Carry Adder
缺点: 速度慢.
延时(OR AND 1ty, XOR 3ty)
Cn: 2n ty
Sn: 2n+1 ty
3. Carry Look Ahead Adder注意:这里的+均为“或”
\begin{aligned}
𝐶_𝑖&=𝑋_𝑖𝐶_{𝑖−1}+𝑌_𝑖𝐶_{𝑖−1}+𝑋_𝑖𝑌_i\\
\\
C_1&=𝑋_1𝑌_1+(𝑋_1+𝑌_1)𝐶_0\\
𝐶_2&=𝑋_2𝑌_2+(𝑋_ ...
计算机组织结构(三) BCD 码
📚 文档目录合集-数的二进制表示-定点运算-BCD 码-浮点数四则运算-内置存储器-Cache-外存-纠错-RAID-内存管理-总线-指令集: 特征- 指令集:寻址方式和指令格式
每 4 位二进制数表示十进制的一位数
加法:由于真值的进位是 10,而 BCD 码的进位是 16,所以在真值产生进位的时候需加 6 强制进位.
减法:类似于补码减法. BCD”补码”与原码相加得 9.若结果是负数(“补码”表示),需转化成负号+原码的形式.
计算机组织结构(四) 浮点数四则运算
📚 文档目录合集-数的二进制表示-定点运算-BCD 码-浮点数四则运算-内置存储器-Cache-外存-纠错-RAID-内存管理-总线-指令集: 特征- 指令集:寻址方式和指令格式
浮点数的加减运算$X=X_S \times 2^{X_E},Y=Y_S \times 2^{Y_E}$
步骤
检查是否为零
阶码对齐,尾数移位
对尾数加或减
标准化结果
溢出判断
对阶
求阶差$\Delta E=\begin{cases} =0,已经对齐\\ne0,\begin{cases}大的向小的对齐:减小较r大的阶码,同时扩大其尾数\小的向大的对齐:增大较小的阶码,同时减小其尾数 \end{cases} \\end{cases}$在计算机中,尾数左移可能会使最高位数据丢j失,故采用小阶向大阶对齐
浮点数加减的过程
一些溢出情况1. Exponent overflow
一个正的指数超出了指数的最大值(即127)
指定为$-\infty 或 +\infty$
2. Exponent underflow
一个负的指数小于了指数的最小值(即-126)
指定为0.
3. Signi ...
计算机组织结构(五) 内置存储器
📚 文档目录合集-数的二进制表示-定点运算-BCD 码-浮点数四则运算-内置存储器-Cache-外存-纠错-RAID-内存管理-总线-指令集: 特征- 指令集:寻址方式和指令格式
Memory存储器由一定数量的单元构成,每个单元可以被唯一标识,每个单元都有存储一个数值的能力.
地址:单元的唯一标识符(采用二进制).
地址空间:可唯一标识的单元总数.
寻址能力: 存储在每个单元中的信息的位数
大多数存储器是字节可寻址的,执行科学计算的计算机通常是64位寻址的.
半导体存储器
主存中广泛地运用了半导体芯片.
Memory Cell:半导体主存的基本元素.
特性:
它们展示了两种稳定(半稳定)的状态,可以用于表示二进制0和1.
能够被写入至少一次.
可以被读.
半导体存储器类型
RAMRAM
Random-Access Memory
Characteristics
易于读/写且快速
易失(断电丢失数据)
类型
DRAM:Dynamic RAM
SRAM:Static RAM
DRAM
以电容器上的电荷来存储数据
电容器中是否存有电荷被解释称二进制1和0
...
计算机组织结构(六) Cache
📚 文档目录合集-数的二进制表示-定点运算-BCD 码-浮点数四则运算-内置存储器-Cache-外存-纠错-RAID-内存管理-总线-指令集: 特征- 指令集:寻址方式和指令格式
为什么需要 cache?
因为 CPU 比 内存的速度要快得多.`
基本思路
使用较小, 较快的 Cache 和相对较大,更为缓慢的 Memory
Cache 中包含了 Memory 中数据的副本
Cache 位于中央处理器和存储器之间,并可以被集成在 CPU 或者作为主板上的一个模块.
Cache 工作的原理
Check :当处理器试图读取内存中的一个字的时候,会先检查该字是否在 Cache 中.
Hit : 如果确实在, 这个字被传送给处理器.
Miss : 否则,由一定数量的字组成的一块( block )主存中的数据 被读入 Cache ,然后传给处理器.
时间局部性:未来将要使用的信息(指令和数据), 可能是现在正在使用的信息.
空间局部性:未来将要使用的信息, 很可能与正在使用的信息在存储空间上是邻近的(比如遍历一个一维数组).
判断 Hit 与 Miss
冯诺依曼计算机的设计:内存中 ...
计算机组织结构(七) 外存
📚 文档目录合集-数的二进制表示-定点运算-BCD 码-浮点数四则运算-内置存储器-Cache-外存-纠错-RAID-内存管理-总线-指令集: 特征- 指令集:寻址方式和指令格式
特点
大容量,非常用
非易失性
类型
磁盘
光盘
磁带
U盘,SSD
磁盘
磁盘是一种由非磁性材料制成的称为衬底的圆盘,其上涂有一层磁性材料.
衬底材料: 铝合金,铝,玻璃..
玻璃衬底的优点:
改善磁层表面的均匀性,增加磁盘的可靠性.
显著减少整个表面的缺陷,有助于减少读写错误.
支持更低的飞行高度.
更好的刚度,降低了磁盘的动力需求.
更好的耐冲击和耐磨损能力.
分类:
软盘
硬盘
物理特性
采用可移动磁头,每面只有一个读-写头.磁头固定在支架上,支架可以伸缩,使磁头可以定位到任意磁道.
任何时候,所有的磁头都定位在磁道上,所有的磁道都是同心圆.
磁盘上相对位置相同的所有磁道的集合称为柱面.
读写机制
读-写是通过一个叫做磁头的导电线圈进行的.
读写期间,磁头静止不动,盘片高速旋转
头的数量:
单: 读写共用一个头.用于软盘, 老式硬盘.
双: 单独的读,写头.用于现代 ...