Notes/【笔记origin】ESL/2 origin.md



输入变量 -预测- 输出变量，监督学习

> “在统计学中,输入变量 (inputs) 通常 称作 预测变量 (predictors),这是一个与输入变量等价的说法,更经典的说法是 自变量 (independent variables).在模式识别中,更倾向于采用 特征 (features) 的 说法,我们也会采用这一说法.输出变量 (outputs) 被称作 响应变量(responses), 或者更经典的说法是 因变量 (dependent variables).” 在统计学中，输入变量 （inputs） 通常 称作 预测变量 （predictors），这是一个与输入变量等价的说法，更经典的说法是 自变量 （independent variables）。在模式识别中，更倾向于采用 特征 （features） 的 说法，我们也会采用这一说法。输出变量 （outputs） 被称作 响应变量（responses），或者更经典的说法是 因变量 （dependent variables）。

- 预测输出 => 回归

- 预测分类 => 分类


- **情境1：**每一类的训练数据是从二元正态分布(不相关且均值不同)中生成的.

- **情境2：**每一类的训练数据是来自 个低方差的高斯分布的混合,每一个高斯分布都有各自的均值.


学习：

“给定输入向量 ,对输出 做出一个 很好的估计,记为 .如果 取值为 ,则 取值也是 ;同样地,对于类别 型输出, 取值为对应 取值的集合 .” 给定输入向量 ,对输出 做出一个 很好的估计,记为 .如果 取值为 ,则 取值也是 ;同样地,对于类别 型输出, 取值为对应 取值的集合 .

算法：

- 最小二乘法：全局学习

- k最邻近算法：局部学习

- 最小二乘假设：是某个整体线性函数的良好近似.

- 最近邻假设：是局部常值函数的良好近似.


判别理论：

我们希望**最小化的是**`目标和现实的差距`

这里如果是多分类，一般用交叉熵；这里的0-1损失函数相当于一个错误损失 => 你在乎什么

“偏差-方差分解 (bias-variance decomposition)”

这只是线性模型所能够模拟的极限

**交叉熵：**用模型分布 $q$ 去描述真实分布 $p$，需要付出的“代价”

我们从`线性=>非线性`，可以采取

- 手动特征变换 => 人自己定义基底

- 核方法变换


**本质解释：“**为了得到有限的有用结果，我们必须限制解的集合”

我们真正想要的不是：拟合训练数据；而是：找一个“合理的函数”。所以我们做的是：在所有能让 RSS 小的函数里，挑一类“我们认为好的函数”

=> 什么意思？我们想要找的不是经过这些特定点的所有函数（解空间），而是**预测没有见过的数据**，这就是**纯数学拟合 vs 统计学习**，一个关注动态，一个关注静态

=> 优先引入限制，比如函数平滑，线性，不能剧烈振荡：**引入归纳偏置**

E = Bias^2 + Variance + Noise

Bias => 拟合数据; Variance => 泛化能力; Noise => 不可控

**机器学习的本质不是“拟合数据”，而是“在有限数据下做合理的函数选择”**

各向同性 isotropic ：以某个点为中心，向所有方向扩展方式完全相同的局部区域

- **粗糙度惩罚：**数学观点，太复杂和太不平滑的不要

- **Bayes方法：**以先验信仰，看函数本身是否合理

- **核方法 / 局部回归 ：** 在“某个点附近”用加权平均或简单模型来估计 $\mathbb{E}[Y|X]$


=> 基函数，类似线性代数的基底，每个基函数都是一个$e_i$

- **基函数方法：**把输入 $x$ 映射成一组“特征函数”，然后对这些函数做线性组合

- **基函数：** 一组用来“表示函数”的基本构件。常见如多项式，$h_0(x) = 1, h_1(x) = x, h_2(x) = x^2$ 诸如此类

- **字典方法：**字典是一大堆候选基函数的集合


基函数方法就是通过一个非线性映射 $\phi(x)$，把输入变换到一个新的特征空间，在该空间中用线性模型进行拟合，从而在原空间中实现对复杂非线性函数的逼近

**机器学习的本质不是“让模型变复杂”，而是“找到一个合适的表示，使问题在这个表示下变简单（线性）”**

经典公式：$E = Bias^2 + Variance + Noise$

**所有模型（核方法、基函数、KNN、正则化）本质都在通过一个参数控制复杂度，而模型选择的核心问题就是在 bias 和 variance 之间找到最优平衡点**