第三章

“做预测时,线性模型有时比更花哨的 (fancier) 非线性模型表现得还要好,特别是在训练样本 (training cases) 很少、低信噪比或者稀疏数据的情况下.”

线性回归 => 最小二乘法

这个东西所用的 $y = w*x$，实际上就是如下内容：

\bold{Y} = \bold{w} * \bold{X}

其中w可以被理解为一个标量参数，人们发明矩阵只是方便进行批处理运算不同的 y_i = a_i * x_i

“Gauss-Markov 定理表明最小二乘估计在所有无偏线性估计中有最小的均方误差”

“有p > 1个输入的线性模型 (3.1) 称作多重线性回归模型”

“两个原因使得我们经常不满足最小二乘估计 (3.6)

第一个是预测的精确性 (predic on accuracy):最小二乘估计经常有小偏差大方差.预测精确性有时可以通过收缩或者令某些系数为 0 来提高.通过这些方法我们牺牲一点偏差来降低预测值的方差,因此可能提高整个预测的精确性.
第二个原因是可解释性 (interpreta on):当有大量的预测变量时,我们经常去确定一个小的子集来保持最强的影响.为了得到“big picture”,我们愿意牺牲一些小的细节.”

控制回归参数

回归系数 = $\beta$，就是模型里每个特征的权重；shrinkage 和 subset selection本质上都是在控制这些 $\beta$

控制子集：刚刚好能解释数据，又不过度复杂的子空间，避免把噪声也学进去 => 精确性，可解释性

最优子集选择 => $2^n$排列组合尝试
向前向后逐步选择 =>
- 向前：先不加，然后逐步加特征，每次加的是误差减少最多的
- 向后：先全加，然后逐步减特征，每次减的是误差减少最小的

收缩的方法 => 不删除变量，而是“压缩”回归系数，让它们变小（甚至接近0）

**岭回归：**在普通的最小二乘法后面，**加了惩罚：**在拟合数据的同时，惩罚“系数太大”，控制压缩的是\lambda
注意：这里压缩的是\Sigma \beta_j^2

“这里是控制收缩程度的参数: 值越大,收缩的程度越大.每个系数都向零收缩.通过参数的平方和来惩罚的想法也用在了神经网络,也被称作权重衰减 (weight decay)”

图3.9 => 长方向稳定，短方向不稳定（小噪声引起大的梯度变化） => 设置$\lambda$让短方向的梯度影响变小 => 数据在某个方向越“展开”（方差越大），这个方向的信息越可靠；岭回归通过抬高小特征值，主动压制那些“几乎没有数据支撑”的方向，从而降低模型的不稳定性。

**Lasso：**和岭回归类似，但是最后的惩罚是\lambda \Sigma_{j=1}^p |\beta_j|
对比岭回归：
- Lasso => 平面上的菱形
- 岭回归 => 平面上的圆形
- Lasso更容易把参数固定在角上，类似软删除，Lasso 通过 L1 正则引入“尖角约束”，使得最优解容易落在坐标轴上，从而产生稀疏解，实现自动变量选择。

“岭回归做等比例的收缩.lasso 通过常数因子变换每个系数,在 0 处截去.这也称作“软阈限”,而且用在 5.9 节中基于小波光滑的内容中.最优子集选择删掉所有系数小于第个大系数的变量;这是“硬阈限”的一种形式. 回到非正交的情形,一些图象可以帮助了解它们之间的关系.当只有两个参数时图 3.11 描绘了 lasso(左)和岭回归(右).残差平方和为椭圆形的等高线,以全最小二乘估计为中心.岭回归的约束区域为圆盘 ,lasso 的约束区域为菱形 .两种方式都寻找当椭圆等高线达到约束区域的第一个点.与圆盘不同,菱形 (diamond) 有角;如果解出现在角上,则有一个参数等于 0.当 ,菱形变成了偏菱形 (rhomboid),而且有许多角,平坦的边和面; 对于参数估计有更多的可能为 0.”

在线性回归中，我们通过最小二乘法估计参数 $\beta$，使预测值 \hat{y} = X\beta 尽可能接近真实值 $y$。
收缩方法（如 Ridge 和 Lasso）在此基础上引入正则化项，对回归系数 \beta 进行约束：

Ridge 使用 \lambda \sum \beta_j^2
Lasso 使用 \lambda \sum |\beta_j|
从而在拟合数据的同时控制模型复杂度，防止过拟合。

最佳参数 = 误差 + 缩放的复杂度

关于$\beta$，因为 β 越大，模型对输入变化越敏感（函数越“陡”），也越容易拟合噪声 → 更复杂

最小角：LAR 选择一个方向，使得它与所有已选变量的“夹角相同”，保持对所有已选变量“同等相关”。

LAR 的本质不是“选变量”，而是“沿着最有信息的方向逐步逼近最优解，并在变量之间保持平衡”。LAR通过不断沿着与残差最相关的方向前进，并在多个变量之间保持等相关推进，逐步构造出从零模型到最小二乘解的一条连续路径。

**派生输入方法：**通过对原始输入进行线性或非线性变换，构造新的特征表示，从而在新的特征空间中减少冗余、揭示结构或提升模型性能。
**多重输出：**当输出独立时，模型在参数矩阵的列空间上是可分的，可以逐列独立估计；而当输出相关时，需要在整个参数矩阵上施加结构约束（如共享子空间或稀疏结构），本质上是通过线性组合将多个输出耦合到一个低维或受限的表示中，从而实现信息共享。
**偏最小二乘法：**在输入空间中寻找一个低维子空间，使得投影后的数据对输出具有最大的解释能力，然后在这个子空间中进行回归。

ESL 主要讨论确定性的正则化方法（如子集选择和收缩），而 dropout 属于深度学习中的随机正则化方法，其思想更接近于 bagging 等模型平均技术，在 ESL 中并未直接出现，但在概念上可以建立对应关系。

6.0 KiB Raw Permalink Blame History Unescape Escape

第三章

控制回归参数

6.0 KiB

Raw Permalink Blame History