# 第三章 “做预测时,线性模型有时比 更花哨的 (fancier) 非线性模型 表现得还要好,特别是在 训练样本 (training cases) 很少、低信噪比或者稀疏数据 的情况下.” **线性回归 => 最小二乘法** 这个东西所用的 $y = w*x$,实际上就是如下内容: $\bold{Y} = \bold{w} * \bold{X}$ 其中w可以被理解为一个标量参数,人们发明矩阵只是方便进行批处理运算不同的 y_i = a_i * x_i “Gauss-Markov 定理表明最小二乘估计在所有 无偏线性估计中有最小的均方误差” “有p > 1个输入的线性模型 (3.1) 称作 多重线性回归模型” “两个原因使得我们经常不满足最小二乘估计 (3.6) - 第一个是预测的 精确性 (predic on accuracy):最小二乘估计经常有小偏差大 方差.预测精确性有时可以通过收缩或者令某些系数为 0 来提高.通过这些 方法我们牺牲一点偏差来降低预测值的方差,因此可能提高整个预测的精确 性. - 第二个原因是 可解释性 (interpreta on):当有大量的预测变量时,我们经常 去确定一个小的子集来保持最强的影响.为了得到“big picture”,我们愿意牺 牲一些小的细节.” ## 控制回归参数 - **回归系数 = $\beta$,就是模型里每个特征的权重;shrinkage 和 subset selection本质上都是在控制这些 $\beta$** **控制子集:刚刚好能解释数据,又不过度复杂的子空间,避免把噪声也学进去 => 精确性,可解释性** - **最优子集选择** => $2^n$排列组合尝试 - **向前向后逐步选择** => - 向前:先不加,然后逐步加特征,每次加的是误差减少**最多的** - 向后:先全加,然后逐步减特征,每次减的是误差减少**最小的** **收缩的方法** => 不删除变量,而是“压缩”回归系数,让它们变小(甚至接近0) - **岭回归:**在普通的最小二乘法后面,**加了惩罚:**在拟合数据的同时,惩罚“系数太大”,控制压缩的是$\lambda$ - 注意:这里压缩的是$\Sigma \beta_j^2$ “这里 是控制收缩程度的参数: 值越大,收缩的程度越大.每个系数都向零 收缩.通过参数的平方和来惩罚的想法也用在了神经网络,也被称作权重衰减 (weight decay)” 图3.9 => 长方向稳定,短方向不稳定(小噪声引起大的梯度变化) => 设置$\lambda$让短方向的梯度影响变小 => **数据在某个方向越“展开”(方差越大),这个方向的信息越可靠;岭回归通过抬高小特征值,主动压制那些“几乎没有数据支撑”的方向,从而降低模型的不稳定性。** - **Lasso:**和岭回归类似,但是最后的惩罚是$\lambda \Sigma_{j=1}^p |\beta_j|$ - **对比岭回归**: - Lasso => 平面上的菱形 - 岭回归 => 平面上的圆形 - Lasso更容易把参数固定在角上,类似软删除,Lasso 通过 L1 正则引入“尖角约束”,使得最优解容易落在坐标轴上,从而产生稀疏解,实现自动变量选择。 “岭回归做等比例的收缩.lasso 通过常数因子 变换每个系数,在 0 处截去.这也 称作“软阈限”,而且用在 5.9 节中基于小波光滑的内容中.最优子集选择删掉所有 系数小于第 个大系数的变量;这是“硬阈限”的一种形式. 回到非正交的情形,一些图象可以帮助了解它们之间的关系.当只有两个参数时 图 3.11 描绘了 lasso(左)和岭回归(右).残差平方和为椭圆形的等高线,以 全最小二乘估计为中心.岭回归的约束区域为圆盘 ,lasso 的约束区 域为菱形 .两种方式都寻找当椭圆等高线达到约束区域的第一个 点.与圆盘不同,菱形 (diamond) 有角;如果解出现在角上,则有一个参数 等 于 0.当 ,菱形变成了偏菱形 (rhomboid),而且有许多角,平坦的边和面; 对于参数估计有更多的可能为 0.” 在线性回归中,我们通过最小二乘法估计参数 $\beta$,使预测值 $\hat{y} = X\beta$ 尽可能接近真实值 $y$。 收缩方法(如 Ridge 和 Lasso)在此基础上引入正则化项,对回归系数 $\beta$ 进行约束: - Ridge 使用 $\lambda \sum \beta_j^2$ - Lasso 使用 $\lambda \sum |\beta_j|$ 从而在拟合数据的同时控制模型复杂度,防止过拟合。 > 最佳参数 = 误差 + 缩放的复杂度 关于$\beta$,因为 β 越大,模型对输入变化越敏感(函数越“陡”),也越容易拟合噪声 → 更复杂 - 最小角:LAR 选择一个方向,使得它与所有已选变量的“夹角相同”,**保持对所有已选变量“同等相关”**。 LAR 的本质不是“选变量”,而是“沿着最有信息的方向逐步逼近最优解,并在变量之间保持平衡”。LAR通过不断沿着与残差最相关的方向前进,并在多个变量之间保持等相关推进,逐步构造出从零模型到最小二乘解的一条连续路径。 - **派生输入方法:**通过对原始输入进行线性或非线性变换,构造新的特征表示,从而在新的特征空间中减少冗余、揭示结构或提升模型性能。 - **多重输出:**当输出独立时,模型在参数矩阵的列空间上是可分的,可以逐列独立估计;而当输出相关时,需要在整个参数矩阵上施加结构约束(如共享子空间或稀疏结构),本质上是通过线性组合将多个输出耦合到一个低维或受限的表示中,从而实现信息共享。 - **偏最小二乘法:**在输入空间中寻找一个低维子空间,使得投影后的数据对输出具有最大的解释能力,然后在这个子空间中进行回归。 ESL 主要讨论确定性的正则化方法(如子集选择和收缩),而 dropout 属于深度学习中的随机正则化方法,其思想更接近于 bagging 等模型平均技术,在 ESL 中并未直接出现,但在概念上可以建立对应关系。