# 第五章

“逻辑斯蒂回归和分离超平面都依赖于线性模型”

“这是关于 的 线性基展开式 (linear basis expansion).这种方式的优美在于一旦 确定了基函数 ,模型关于这些新变量是线性的,然后就可以像之前一样进行 拟合.”

“特殊的基函数”

“在这章中,我们考虑更加实用的 分段多项式 (piecewise-polynimials) 族和 样条 (splines),它们允许局部的多项式表示.我们也 考虑小波基,这在信号和图像处理中特别有用”

- 限制方法 => 事先确定限制函数的类别
    
- 选择方法 => 仅包含对拟合有显著作用的函数
    
- 正则化方法 => 对系数做限制
    

**损失函数 = 你对数据噪声的假设 => 选函数空间 + 选损失函数 + 做优化**

“h5(X) = (X − ξ1)3+” => 这是在“某个点之后增加额外自由度”：局部调整

- **三次样条：**每一段是三次多项式，并且在每个节点满足：函数连续，一阶导连续，二阶导连续
    

虽然理论上 $f(x)$ 可以是任何函数，但数学家证明了：**对于这个特定的最小化问题，最优解** $f(x)$ **恰好可以表示为以数据点** $x_i$ **为节点的“自然三次样条”。**

想象你手里有一根**细长且有弹性的钢条**。你想让它穿过桌面上钉着的 $N$ 个钉子（数据点）。

钢条为了达到稳定状态，会自发地寻找一种形状，使得它内部积累的**弯曲能量最小**。

物理学告诉我们，这种弯曲能量正比于：

$$\int f''(x)^2 dx$$

这正好就是样条模型里的那个**正则项（惩罚项）**！

**神奇的结论：** 物理实验和数学推导共同证明，满足这种“弯曲能量最小”且经过指定点的曲线，**在数学形式上恰好就是自然三次样条**。所以，当我们写下那个带有 $\int f''^2$ 的损失函数时，我们实际上是在模拟物理世界的“最小能量原理”。

$RSS(f, \lambda) = \sum_{i=1}^{N} (y_i - f(x_i))^2 + \lambda \int (f''(t))^2 dt$

- 后面的项是控制“复杂度”的，后面的二阶导控制的是函数的曲率 => 光滑度
    

引出一个问题，**高维怎么办**？

“高维特征的预处理是非常普遍的而且对于改善学习算法的效果是很有效的.预处 理也不需要像上面一样是线性的,而是可以是一般的(非线性)函数 .派生特征 可以接着作为任意(线性或非线性)学习过程的输入.”

**在多维度的特征里面，**如x = (x1, x2)，两个特征相互影响，那么我们需要交叉构造特征来构造一个“足够丰富的函数空间”，让模型有能力表达复杂关系