# 第三章

“做预测时,线性模型有时比 更花哨的 (fancier) 非线性模型 表现得还要好,特别是在 训练样本 (training cases) 很少、低信噪比或者稀疏数据 的情况下.”

**线性回归 => 最小二乘法**

这个东西所用的 $y = w*x$，实际上就是如下内容：

$\bold{Y} = \bold{w} * \bold{X}$

其中w可以被理解为一个标量参数，人们发明矩阵只是方便进行批处理运算不同的 y_i = a_i * x_i

“Gauss-Markov 定理表明最小二乘估计在所有 无偏线性估计中有最小的均方误差”

“有p > 1个输入的线性模型 (3.1) 称作 多重线性回归模型”

“两个原因使得我们经常不满足最小二乘估计 (3.6)

- 第一个是预测的 精确性 (predic on accuracy):最小二乘估计经常有小偏差大 方差.预测精确性有时可以通过收缩或者令某些系数为 0 来提高.通过这些 方法我们牺牲一点偏差来降低预测值的方差,因此可能提高整个预测的精确 性.
    
- 第二个原因是 可解释性 (interpreta on):当有大量的预测变量时,我们经常 去确定一个小的子集来保持最强的影响.为了得到“big picture”,我们愿意牺 牲一些小的细节.”
    

## 控制回归参数

- **回归系数 = $\beta$，就是模型里每个特征的权重；shrinkage 和 subset selection本质上都是在控制这些 $\beta$**
    

**控制子集：刚刚好能解释数据，又不过度复杂的子空间，避免把噪声也学进去 => 精确性，可解释性**

- **最优子集选择** => $2^n$排列组合尝试
    
- **向前向后逐步选择** =>
    
    - 向前：先不加，然后逐步加特征，每次加的是误差减少**最多的**
        
    - 向后：先全加，然后逐步减特征，每次减的是误差减少**最小的**
        

**收缩的方法** => 不删除变量，而是“压缩”回归系数，让它们变小（甚至接近0）

- **岭回归：**在普通的最小二乘法后面，**加了惩罚：**在拟合数据的同时，惩罚“系数太大”，控制压缩的是$\lambda$
    
- 注意：这里压缩的是$\Sigma \beta_j^2$
    

“这里 是控制收缩程度的参数: 值越大,收缩的程度越大.每个系数都向零 收缩.通过参数的平方和来惩罚的想法也用在了神经网络,也被称作权重衰减 (weight decay)”

图3.9 => 长方向稳定，短方向不稳定（小噪声引起大的梯度变化） => 设置$\lambda$让短方向的梯度影响变小 => **数据在某个方向越“展开”（方差越大），这个方向的信息越可靠；岭回归通过抬高小特征值，主动压制那些“几乎没有数据支撑”的方向，从而降低模型的不稳定性。**

- **Lasso：**和岭回归类似，但是最后的惩罚是$\lambda \Sigma_{j=1}^p |\beta_j|$
    
- **对比岭回归**：
    
    - Lasso => 平面上的菱形
        
    - 岭回归 => 平面上的圆形
        
    - Lasso更容易把参数固定在角上，类似软删除，Lasso 通过 L1 正则引入“尖角约束”，使得最优解容易落在坐标轴上，从而产生稀疏解，实现自动变量选择。
        

“岭回归做等比例的收缩.lasso 通过常数因子 变换每个系数,在 0 处截去.这也 称作“软阈限”,而且用在 5.9 节中基于小波光滑的内容中.最优子集选择删掉所有 系数小于第 个大系数的变量;这是“硬阈限”的一种形式. 回到非正交的情形,一些图象可以帮助了解它们之间的关系.当只有两个参数时 图 3.11 描绘了 lasso(左)和岭回归(右).残差平方和为椭圆形的等高线,以 全最小二乘估计为中心.岭回归的约束区域为圆盘 ,lasso 的约束区 域为菱形 .两种方式都寻找当椭圆等高线达到约束区域的第一个 点.与圆盘不同,菱形 (diamond) 有角;如果解出现在角上,则有一个参数 等 于 0.当 ,菱形变成了偏菱形 (rhomboid),而且有许多角,平坦的边和面; 对于参数估计有更多的可能为 0.”

在线性回归中，我们通过最小二乘法估计参数 $\beta$，使预测值 $\hat{y} = X\beta$ 尽可能接近真实值 $y$。  
收缩方法（如 Ridge 和 Lasso）在此基础上引入正则化项，对回归系数 $\beta$ 进行约束：

- Ridge 使用 $\lambda \sum \beta_j^2$
    
- Lasso 使用 $\lambda \sum |\beta_j|$  
    从而在拟合数据的同时控制模型复杂度，防止过拟合。
    

> 最佳参数 = 误差 + 缩放的复杂度

关于$\beta$，因为 β 越大，模型对输入变化越敏感（函数越“陡”），也越容易拟合噪声 → 更复杂

- 最小角：LAR 选择一个方向，使得它与所有已选变量的“夹角相同”，**保持对所有已选变量“同等相关”**。
    

LAR 的本质不是“选变量”，而是“沿着最有信息的方向逐步逼近最优解，并在变量之间保持平衡”。LAR通过不断沿着与残差最相关的方向前进，并在多个变量之间保持等相关推进，逐步构造出从零模型到最小二乘解的一条连续路径。

- **派生输入方法：**通过对原始输入进行线性或非线性变换，构造新的特征表示，从而在新的特征空间中减少冗余、揭示结构或提升模型性能。
    
- **多重输出：**当输出独立时，模型在参数矩阵的列空间上是可分的，可以逐列独立估计；而当输出相关时，需要在整个参数矩阵上施加结构约束（如共享子空间或稀疏结构），本质上是通过线性组合将多个输出耦合到一个低维或受限的表示中，从而实现信息共享。
    
- **偏最小二乘法：**在输入空间中寻找一个低维子空间，使得投影后的数据对输出具有最大的解释能力，然后在这个子空间中进行回归。
    

ESL 主要讨论确定性的正则化方法（如子集选择和收缩），而 dropout 属于深度学习中的随机正则化方法，其思想更接近于 bagging 等模型平均技术，在 ESL 中并未直接出现，但在概念上可以建立对应关系。