第五章

“逻辑斯蒂回归和分离超平面都依赖于线性模型”

“这是关于的线性基展开式 (linear basis expansion).这种方式的优美在于一旦确定了基函数 ,模型关于这些新变量是线性的,然后就可以像之前一样进行拟合.”

“特殊的基函数”

“在这章中,我们考虑更加实用的分段多项式 (piecewise-polynimials) 族和样条 (splines),它们允许局部的多项式表示.我们也考虑小波基,这在信号和图像处理中特别有用”

损失函数 = 你对数据噪声的假设 => 选函数空间 + 选损失函数 + 做优化

“h5(X) = (X − ξ1)3+” => 这是在“某个点之后增加额外自由度”：局部调整

虽然理论上 f(x) 可以是任何函数，但数学家证明了：对于这个特定的最小化问题，最优解 f(x) 恰好可以表示为以数据点 x_i 为节点的“自然三次样条”。

想象你手里有一根细长且有弹性的钢条。你想让它穿过桌面上钉着的 N 个钉子（数据点）。

钢条为了达到稳定状态，会自发地寻找一种形状，使得它内部积累的弯曲能量最小。

物理学告诉我们，这种弯曲能量正比于：

\int f''(x)^2 dx

这正好就是样条模型里的那个正则项（惩罚项）！

神奇的结论： 物理实验和数学推导共同证明，满足这种“弯曲能量最小”且经过指定点的曲线，在数学形式上恰好就是自然三次样条。所以，当我们写下那个带有 \int f''^2 的损失函数时，我们实际上是在模拟物理世界的“最小能量原理”。

RSS(f, \lambda) = \sum_{i=1}^{N} (y_i - f(x_i))^2 + \lambda \int (f''(t))^2 dt

引出一个问题，高维怎么办？

“高维特征的预处理是非常普遍的而且对于改善学习算法的效果是很有效的.预处理也不需要像上面一样是线性的,而是可以是一般的(非线性)函数 .派生特征可以接着作为任意(线性或非线性)学习过程的输入.”

**在多维度的特征里面，**如x = (x1, x2)，两个特征相互影响，那么我们需要交叉构造特征来构造一个“足够丰富的函数空间”，让模型有能力表达复杂关系