Files
Notes/【笔记origin】ESL/2 origin.md
2026-05-16 17:16:51 +08:00

4.4 KiB
Raw Permalink Blame History

输入变量 -预测- 输出变量,监督学习

“在统计学中,输入变量 (inputs) 通常 称作 预测变量 (predictors),这是一个与输入变量等价的说法,更经典的说法是 自变量 (independent variables).在模式识别中,更倾向于采用 特征 (features) 的 说法,我们也会采用这一说法.输出变量 (outputs) 被称作 响应变量(responses), 或者更经典的说法是 因变量 (dependent variables).” 在统计学中,输入变量 inputs 通常 称作 预测变量 predictors这是一个与输入变量等价的说法更经典的说法是 自变量 independent variables。在模式识别中更倾向于采用 特征 features 的 说法,我们也会采用这一说法。输出变量 outputs 被称作 响应变量responses或者更经典的说法是 因变量 dependent variables

  • 预测输出 => 回归

  • 预测分类 => 分类

  • **情境1**每一类的训练数据是从二元正态分布(不相关且均值不同)中生成的.

  • **情境2**每一类的训练数据是来自 个低方差的高斯分布的混合,每一个高斯分布都有各自的均值.

学习:

“给定输入向量 ,对输出 做出一个 很好的估计,记为 .如果 取值为 ,则 取值也是 ;同样地,对于类别 型输出, 取值为对应 取值的集合 .” 给定输入向量 ,对输出 做出一个 很好的估计,记为 .如果 取值为 ,则 取值也是 ;同样地,对于类别 型输出, 取值为对应 取值的集合 .

算法:

  • 最小二乘法:全局学习

  • k最邻近算法局部学习

  • 最小二乘假设:是某个整体线性函数的良好近似.

  • 最近邻假设:是局部常值函数的良好近似.

判别理论:

我们希望最小化的是目标和现实的差距

这里如果是多分类一般用交叉熵这里的0-1损失函数相当于一个错误损失 => 你在乎什么

“偏差-方差分解 (bias-variance decomposition)”

这只是线性模型所能够模拟的极限

**交叉熵:**用模型分布 q 去描述真实分布 $p$,需要付出的“代价”

我们从线性=>非线性,可以采取

  • 手动特征变换 => 人自己定义基底

  • 核方法变换

**本质解释:“**为了得到有限的有用结果,我们必须限制解的集合”

我们真正想要的不是:拟合训练数据;而是:找一个“合理的函数”。所以我们做的是:在所有能让 RSS 小的函数里,挑一类“我们认为好的函数”

=> 什么意思?我们想要找的不是经过这些特定点的所有函数(解空间),而是预测没有见过的数据,这就是纯数学拟合 vs 统计学习,一个关注动态,一个关注静态

=> 优先引入限制,比如函数平滑,线性,不能剧烈振荡:引入归纳偏置

E = Bias^2 + Variance + Noise

Bias => 拟合数据; Variance => 泛化能力; Noise => 不可控

机器学习的本质不是“拟合数据”,而是“在有限数据下做合理的函数选择”

各向同性 isotropic :以某个点为中心,向所有方向扩展方式完全相同的局部区域

  • **粗糙度惩罚:**数学观点,太复杂和太不平滑的不要

  • **Bayes方法**以先验信仰,看函数本身是否合理

  • 核方法 / 局部回归 在“某个点附近”用加权平均或简单模型来估计 \mathbb{E}[Y|X]

=> 基函数,类似线性代数的基底,每个基函数都是一个e_i

  • **基函数方法:**把输入 x 映射成一组“特征函数”,然后对这些函数做线性组合

  • 基函数: 一组用来“表示函数”的基本构件。常见如多项式,h_0(x) = 1, h_1(x) = x, h_2(x) = x^2 诸如此类

  • **字典方法:**字典是一大堆候选基函数的集合

基函数方法就是通过一个非线性映射 $\phi(x)$,把输入变换到一个新的特征空间,在该空间中用线性模型进行拟合,从而在原空间中实现对复杂非线性函数的逼近

机器学习的本质不是“让模型变复杂”,而是“找到一个合适的表示,使问题在这个表示下变简单(线性)”

经典公式:E = Bias^2 + Variance + Noise

所有模型核方法、基函数、KNN、正则化本质都在通过一个参数控制复杂度而模型选择的核心问题就是在 bias 和 variance 之间找到最优平衡点