Files
Notes/【笔记origin】ESL/3 origin.md
2026-05-16 17:16:51 +08:00

6.0 KiB
Raw Permalink Blame History

第三章

“做预测时,线性模型有时比 更花哨的 (fancier) 非线性模型 表现得还要好,特别是在 训练样本 (training cases) 很少、低信噪比或者稀疏数据 的情况下.”

线性回归 => 最小二乘法

这个东西所用的 $y = w*x$,实际上就是如下内容:

\bold{Y} = \bold{w} * \bold{X}

其中w可以被理解为一个标量参数人们发明矩阵只是方便进行批处理运算不同的 y_i = a_i * x_i

“Gauss-Markov 定理表明最小二乘估计在所有 无偏线性估计中有最小的均方误差”

“有p > 1个输入的线性模型 (3.1) 称作 多重线性回归模型”

“两个原因使得我们经常不满足最小二乘估计 (3.6)

  • 第一个是预测的 精确性 (predic on accuracy):最小二乘估计经常有小偏差大 方差.预测精确性有时可以通过收缩或者令某些系数为 0 来提高.通过这些 方法我们牺牲一点偏差来降低预测值的方差,因此可能提高整个预测的精确 性.

  • 第二个原因是 可解释性 (interpreta on):当有大量的预测变量时,我们经常 去确定一个小的子集来保持最强的影响.为了得到“big picture”,我们愿意牺 牲一些小的细节.”

控制回归参数

  • 回归系数 = $\beta$就是模型里每个特征的权重shrinkage 和 subset selection本质上都是在控制这些 $\beta$

控制子集:刚刚好能解释数据,又不过度复杂的子空间,避免把噪声也学进去 => 精确性,可解释性

  • 最优子集选择 => $2^n$排列组合尝试

  • 向前向后逐步选择 =>

    • 向前:先不加,然后逐步加特征,每次加的是误差减少最多的

    • 向后:先全加,然后逐步减特征,每次减的是误差减少最小的

收缩的方法 => 不删除变量而是“压缩”回归系数让它们变小甚至接近0

  • **岭回归:**在普通的最小二乘法后面,**加了惩罚:**在拟合数据的同时,惩罚“系数太大”,控制压缩的是\lambda

  • 注意:这里压缩的是\Sigma \beta_j^2

“这里 是控制收缩程度的参数: 值越大,收缩的程度越大.每个系数都向零 收缩.通过参数的平方和来惩罚的想法也用在了神经网络,也被称作权重衰减 (weight decay)”

图3.9 => 长方向稳定,短方向不稳定(小噪声引起大的梯度变化) => 设置$\lambda$让短方向的梯度影响变小 => 数据在某个方向越“展开”(方差越大),这个方向的信息越可靠;岭回归通过抬高小特征值,主动压制那些“几乎没有数据支撑”的方向,从而降低模型的不稳定性。

  • **Lasso**和岭回归类似,但是最后的惩罚是\lambda \Sigma_{j=1}^p |\beta_j|

  • 对比岭回归

    • Lasso => 平面上的菱形

    • 岭回归 => 平面上的圆形

    • Lasso更容易把参数固定在角上类似软删除Lasso 通过 L1 正则引入“尖角约束”,使得最优解容易落在坐标轴上,从而产生稀疏解,实现自动变量选择。

“岭回归做等比例的收缩.lasso 通过常数因子 变换每个系数,在 0 处截去.这也 称作“软阈限”,而且用在 5.9 节中基于小波光滑的内容中.最优子集选择删掉所有 系数小于第 个大系数的变量;这是“硬阈限”的一种形式. 回到非正交的情形,一些图象可以帮助了解它们之间的关系.当只有两个参数时 图 3.11 描绘了 lasso(左)和岭回归(右).残差平方和为椭圆形的等高线,以 全最小二乘估计为中心.岭回归的约束区域为圆盘 ,lasso 的约束区 域为菱形 .两种方式都寻找当椭圆等高线达到约束区域的第一个 点.与圆盘不同,菱形 (diamond) 有角;如果解出现在角上,则有一个参数 等 于 0.当 ,菱形变成了偏菱形 (rhomboid),而且有许多角,平坦的边和面; 对于参数估计有更多的可能为 0.”

在线性回归中,我们通过最小二乘法估计参数 $\beta$,使预测值 \hat{y} = X\beta 尽可能接近真实值 $y$。
收缩方法(如 Ridge 和 Lasso在此基础上引入正则化项对回归系数 \beta 进行约束:

  • Ridge 使用 \lambda \sum \beta_j^2

  • Lasso 使用 \lambda \sum |\beta_j|
    从而在拟合数据的同时控制模型复杂度,防止过拟合。

最佳参数 = 误差 + 缩放的复杂度

关于$\beta$,因为 β 越大,模型对输入变化越敏感(函数越“陡”),也越容易拟合噪声 → 更复杂

  • 最小角LAR 选择一个方向,使得它与所有已选变量的“夹角相同”,保持对所有已选变量“同等相关”

LAR 的本质不是“选变量”而是“沿着最有信息的方向逐步逼近最优解并在变量之间保持平衡”。LAR通过不断沿着与残差最相关的方向前进并在多个变量之间保持等相关推进逐步构造出从零模型到最小二乘解的一条连续路径。

  • **派生输入方法:**通过对原始输入进行线性或非线性变换,构造新的特征表示,从而在新的特征空间中减少冗余、揭示结构或提升模型性能。

  • **多重输出:**当输出独立时,模型在参数矩阵的列空间上是可分的,可以逐列独立估计;而当输出相关时,需要在整个参数矩阵上施加结构约束(如共享子空间或稀疏结构),本质上是通过线性组合将多个输出耦合到一个低维或受限的表示中,从而实现信息共享。

  • **偏最小二乘法:**在输入空间中寻找一个低维子空间,使得投影后的数据对输出具有最大的解释能力,然后在这个子空间中进行回归。

ESL 主要讨论确定性的正则化方法(如子集选择和收缩),而 dropout 属于深度学习中的随机正则化方法,其思想更接近于 bagging 等模型平均技术,在 ESL 中并未直接出现,但在概念上可以建立对应关系。