6.0 KiB
第三章
“做预测时,线性模型有时比 更花哨的 (fancier) 非线性模型 表现得还要好,特别是在 训练样本 (training cases) 很少、低信噪比或者稀疏数据 的情况下.”
线性回归 => 最小二乘法
这个东西所用的 $y = w*x$,实际上就是如下内容:
\bold{Y} = \bold{w} * \bold{X}
其中w可以被理解为一个标量参数,人们发明矩阵只是方便进行批处理运算不同的 y_i = a_i * x_i
“Gauss-Markov 定理表明最小二乘估计在所有 无偏线性估计中有最小的均方误差”
“有p > 1个输入的线性模型 (3.1) 称作 多重线性回归模型”
“两个原因使得我们经常不满足最小二乘估计 (3.6)
-
第一个是预测的 精确性 (predic on accuracy):最小二乘估计经常有小偏差大 方差.预测精确性有时可以通过收缩或者令某些系数为 0 来提高.通过这些 方法我们牺牲一点偏差来降低预测值的方差,因此可能提高整个预测的精确 性.
-
第二个原因是 可解释性 (interpreta on):当有大量的预测变量时,我们经常 去确定一个小的子集来保持最强的影响.为了得到“big picture”,我们愿意牺 牲一些小的细节.”
控制回归参数
- 回归系数 = $\beta$,就是模型里每个特征的权重;shrinkage 和 subset selection本质上都是在控制这些 $\beta$
控制子集:刚刚好能解释数据,又不过度复杂的子空间,避免把噪声也学进去 => 精确性,可解释性
-
最优子集选择 => $2^n$排列组合尝试
-
向前向后逐步选择 =>
-
向前:先不加,然后逐步加特征,每次加的是误差减少最多的
-
向后:先全加,然后逐步减特征,每次减的是误差减少最小的
-
收缩的方法 => 不删除变量,而是“压缩”回归系数,让它们变小(甚至接近0)
-
**岭回归:**在普通的最小二乘法后面,**加了惩罚:**在拟合数据的同时,惩罚“系数太大”,控制压缩的是
\lambda -
注意:这里压缩的是
\Sigma \beta_j^2
“这里 是控制收缩程度的参数: 值越大,收缩的程度越大.每个系数都向零 收缩.通过参数的平方和来惩罚的想法也用在了神经网络,也被称作权重衰减 (weight decay)”
图3.9 => 长方向稳定,短方向不稳定(小噪声引起大的梯度变化) => 设置$\lambda$让短方向的梯度影响变小 => 数据在某个方向越“展开”(方差越大),这个方向的信息越可靠;岭回归通过抬高小特征值,主动压制那些“几乎没有数据支撑”的方向,从而降低模型的不稳定性。
-
**Lasso:**和岭回归类似,但是最后的惩罚是
\lambda \Sigma_{j=1}^p |\beta_j| -
对比岭回归:
-
Lasso => 平面上的菱形
-
岭回归 => 平面上的圆形
-
Lasso更容易把参数固定在角上,类似软删除,Lasso 通过 L1 正则引入“尖角约束”,使得最优解容易落在坐标轴上,从而产生稀疏解,实现自动变量选择。
-
“岭回归做等比例的收缩.lasso 通过常数因子 变换每个系数,在 0 处截去.这也 称作“软阈限”,而且用在 5.9 节中基于小波光滑的内容中.最优子集选择删掉所有 系数小于第 个大系数的变量;这是“硬阈限”的一种形式. 回到非正交的情形,一些图象可以帮助了解它们之间的关系.当只有两个参数时 图 3.11 描绘了 lasso(左)和岭回归(右).残差平方和为椭圆形的等高线,以 全最小二乘估计为中心.岭回归的约束区域为圆盘 ,lasso 的约束区 域为菱形 .两种方式都寻找当椭圆等高线达到约束区域的第一个 点.与圆盘不同,菱形 (diamond) 有角;如果解出现在角上,则有一个参数 等 于 0.当 ,菱形变成了偏菱形 (rhomboid),而且有许多角,平坦的边和面; 对于参数估计有更多的可能为 0.”
在线性回归中,我们通过最小二乘法估计参数 $\beta$,使预测值 \hat{y} = X\beta 尽可能接近真实值 $y$。
收缩方法(如 Ridge 和 Lasso)在此基础上引入正则化项,对回归系数 \beta 进行约束:
-
Ridge 使用
\lambda \sum \beta_j^2 -
Lasso 使用
\lambda \sum |\beta_j|
从而在拟合数据的同时控制模型复杂度,防止过拟合。
最佳参数 = 误差 + 缩放的复杂度
关于$\beta$,因为 β 越大,模型对输入变化越敏感(函数越“陡”),也越容易拟合噪声 → 更复杂
- 最小角:LAR 选择一个方向,使得它与所有已选变量的“夹角相同”,保持对所有已选变量“同等相关”。
LAR 的本质不是“选变量”,而是“沿着最有信息的方向逐步逼近最优解,并在变量之间保持平衡”。LAR通过不断沿着与残差最相关的方向前进,并在多个变量之间保持等相关推进,逐步构造出从零模型到最小二乘解的一条连续路径。
-
**派生输入方法:**通过对原始输入进行线性或非线性变换,构造新的特征表示,从而在新的特征空间中减少冗余、揭示结构或提升模型性能。
-
**多重输出:**当输出独立时,模型在参数矩阵的列空间上是可分的,可以逐列独立估计;而当输出相关时,需要在整个参数矩阵上施加结构约束(如共享子空间或稀疏结构),本质上是通过线性组合将多个输出耦合到一个低维或受限的表示中,从而实现信息共享。
-
**偏最小二乘法:**在输入空间中寻找一个低维子空间,使得投影后的数据对输出具有最大的解释能力,然后在这个子空间中进行回归。
ESL 主要讨论确定性的正则化方法(如子集选择和收缩),而 dropout 属于深度学习中的随机正则化方法,其思想更接近于 bagging 等模型平均技术,在 ESL 中并未直接出现,但在概念上可以建立对应关系。