4.4 KiB
输入变量 -预测- 输出变量,监督学习
“在统计学中,输入变量 (inputs) 通常 称作 预测变量 (predictors),这是一个与输入变量等价的说法,更经典的说法是 自变量 (independent variables).在模式识别中,更倾向于采用 特征 (features) 的 说法,我们也会采用这一说法.输出变量 (outputs) 被称作 响应变量(responses), 或者更经典的说法是 因变量 (dependent variables).” 在统计学中,输入变量 (inputs) 通常 称作 预测变量 (predictors),这是一个与输入变量等价的说法,更经典的说法是 自变量 (independent variables)。在模式识别中,更倾向于采用 特征 (features) 的 说法,我们也会采用这一说法。输出变量 (outputs) 被称作 响应变量(responses),或者更经典的说法是 因变量 (dependent variables)。
-
预测输出 => 回归
-
预测分类 => 分类
-
**情境1:**每一类的训练数据是从二元正态分布(不相关且均值不同)中生成的.
-
**情境2:**每一类的训练数据是来自 个低方差的高斯分布的混合,每一个高斯分布都有各自的均值.
学习:
“给定输入向量 ,对输出 做出一个 很好的估计,记为 .如果 取值为 ,则 取值也是 ;同样地,对于类别 型输出, 取值为对应 取值的集合 .” 给定输入向量 ,对输出 做出一个 很好的估计,记为 .如果 取值为 ,则 取值也是 ;同样地,对于类别 型输出, 取值为对应 取值的集合 .
算法:
-
最小二乘法:全局学习
-
k最邻近算法:局部学习
-
最小二乘假设:是某个整体线性函数的良好近似.
-
最近邻假设:是局部常值函数的良好近似.
判别理论:
我们希望最小化的是目标和现实的差距
这里如果是多分类,一般用交叉熵;这里的0-1损失函数相当于一个错误损失 => 你在乎什么
“偏差-方差分解 (bias-variance decomposition)”
这只是线性模型所能够模拟的极限
**交叉熵:**用模型分布 q 去描述真实分布 $p$,需要付出的“代价”
我们从线性=>非线性,可以采取
-
手动特征变换 => 人自己定义基底
-
核方法变换
**本质解释:“**为了得到有限的有用结果,我们必须限制解的集合”
我们真正想要的不是:拟合训练数据;而是:找一个“合理的函数”。所以我们做的是:在所有能让 RSS 小的函数里,挑一类“我们认为好的函数”
=> 什么意思?我们想要找的不是经过这些特定点的所有函数(解空间),而是预测没有见过的数据,这就是纯数学拟合 vs 统计学习,一个关注动态,一个关注静态
=> 优先引入限制,比如函数平滑,线性,不能剧烈振荡:引入归纳偏置
E = Bias^2 + Variance + Noise
Bias => 拟合数据; Variance => 泛化能力; Noise => 不可控
机器学习的本质不是“拟合数据”,而是“在有限数据下做合理的函数选择”
各向同性 isotropic :以某个点为中心,向所有方向扩展方式完全相同的局部区域
-
**粗糙度惩罚:**数学观点,太复杂和太不平滑的不要
-
**Bayes方法:**以先验信仰,看函数本身是否合理
-
核方法 / 局部回归 : 在“某个点附近”用加权平均或简单模型来估计
\mathbb{E}[Y|X]
=> 基函数,类似线性代数的基底,每个基函数都是一个e_i
-
**基函数方法:**把输入
x映射成一组“特征函数”,然后对这些函数做线性组合 -
基函数: 一组用来“表示函数”的基本构件。常见如多项式,
h_0(x) = 1, h_1(x) = x, h_2(x) = x^2诸如此类 -
**字典方法:**字典是一大堆候选基函数的集合
基函数方法就是通过一个非线性映射 $\phi(x)$,把输入变换到一个新的特征空间,在该空间中用线性模型进行拟合,从而在原空间中实现对复杂非线性函数的逼近
机器学习的本质不是“让模型变复杂”,而是“找到一个合适的表示,使问题在这个表示下变简单(线性)”
经典公式:E = Bias^2 + Variance + Noise
所有模型(核方法、基函数、KNN、正则化)本质都在通过一个参数控制复杂度,而模型选择的核心问题就是在 bias 和 variance 之间找到最优平衡点