90 lines
4.4 KiB
Markdown
90 lines
4.4 KiB
Markdown
|
||
|
||
输入变量 -预测- 输出变量,监督学习
|
||
|
||
> “在统计学中,输入变量 (inputs) 通常 称作 预测变量 (predictors),这是一个与输入变量等价的说法,更经典的说法是 自变量 (independent variables).在模式识别中,更倾向于采用 特征 (features) 的 说法,我们也会采用这一说法.输出变量 (outputs) 被称作 响应变量(responses), 或者更经典的说法是 因变量 (dependent variables).” 在统计学中,输入变量 (inputs) 通常 称作 预测变量 (predictors),这是一个与输入变量等价的说法,更经典的说法是 自变量 (independent variables)。在模式识别中,更倾向于采用 特征 (features) 的 说法,我们也会采用这一说法。输出变量 (outputs) 被称作 响应变量(responses),或者更经典的说法是 因变量 (dependent variables)。
|
||
|
||
- 预测输出 => 回归
|
||
|
||
- 预测分类 => 分类
|
||
|
||
|
||
- **情境1:**每一类的训练数据是从二元正态分布(不相关且均值不同)中生成的.
|
||
|
||
- **情境2:**每一类的训练数据是来自 个低方差的高斯分布的混合,每一个高斯分布都有各自的均值.
|
||
|
||
|
||
学习:
|
||
|
||
“给定输入向量 ,对输出 做出一个 很好的估计,记为 .如果 取值为 ,则 取值也是 ;同样地,对于类别 型输出, 取值为对应 取值的集合 .” 给定输入向量 ,对输出 做出一个 很好的估计,记为 .如果 取值为 ,则 取值也是 ;同样地,对于类别 型输出, 取值为对应 取值的集合 .
|
||
|
||
算法:
|
||
|
||
- 最小二乘法:全局学习
|
||
|
||
- k最邻近算法:局部学习
|
||
|
||
- 最小二乘假设:是某个整体线性函数的良好近似.
|
||
|
||
- 最近邻假设:是局部常值函数的良好近似.
|
||
|
||
|
||
判别理论:
|
||
|
||
我们希望**最小化的是**`目标和现实的差距`
|
||
|
||
这里如果是多分类,一般用交叉熵;这里的0-1损失函数相当于一个错误损失 => 你在乎什么
|
||
|
||
“偏差-方差分解 (bias-variance decomposition)”
|
||
|
||
这只是线性模型所能够模拟的极限
|
||
|
||
**交叉熵:**用模型分布 $q$ 去描述真实分布 $p$,需要付出的“代价”
|
||
|
||
我们从`线性=>非线性`,可以采取
|
||
|
||
- 手动特征变换 => 人自己定义基底
|
||
|
||
- 核方法变换
|
||
|
||
|
||
**本质解释:“**为了得到有限的有用结果,我们必须限制解的集合”
|
||
|
||
我们真正想要的不是:拟合训练数据;而是:找一个“合理的函数”。所以我们做的是:在所有能让 RSS 小的函数里,挑一类“我们认为好的函数”
|
||
|
||
=> 什么意思?我们想要找的不是经过这些特定点的所有函数(解空间),而是**预测没有见过的数据**,这就是**纯数学拟合 vs 统计学习**,一个关注动态,一个关注静态
|
||
|
||
=> 优先引入限制,比如函数平滑,线性,不能剧烈振荡:**引入归纳偏置**
|
||
|
||
E = Bias^2 + Variance + Noise
|
||
|
||
Bias => 拟合数据; Variance => 泛化能力; Noise => 不可控
|
||
|
||
**机器学习的本质不是“拟合数据”,而是“在有限数据下做合理的函数选择”**
|
||
|
||
各向同性 isotropic :以某个点为中心,向所有方向扩展方式完全相同的局部区域
|
||
|
||
- **粗糙度惩罚:**数学观点,太复杂和太不平滑的不要
|
||
|
||
- **Bayes方法:**以先验信仰,看函数本身是否合理
|
||
|
||
- **核方法 / 局部回归 :** 在“某个点附近”用加权平均或简单模型来估计 $\mathbb{E}[Y|X]$
|
||
|
||
|
||
=> 基函数,类似线性代数的基底,每个基函数都是一个$e_i$
|
||
|
||
- **基函数方法:**把输入 $x$ 映射成一组“特征函数”,然后对这些函数做线性组合
|
||
|
||
- **基函数:** 一组用来“表示函数”的基本构件。常见如多项式,$h_0(x) = 1, h_1(x) = x, h_2(x) = x^2$ 诸如此类
|
||
|
||
- **字典方法:**字典是一大堆候选基函数的集合
|
||
|
||
|
||
基函数方法就是通过一个非线性映射 $\phi(x)$,把输入变换到一个新的特征空间,在该空间中用线性模型进行拟合,从而在原空间中实现对复杂非线性函数的逼近
|
||
|
||
**机器学习的本质不是“让模型变复杂”,而是“找到一个合适的表示,使问题在这个表示下变简单(线性)”**
|
||
|
||
经典公式:$E = Bias^2 + Variance + Noise$
|
||
|
||
**所有模型(核方法、基函数、KNN、正则化)本质都在通过一个参数控制复杂度,而模型选择的核心问题就是在 bias 和 variance 之间找到最优平衡点**
|