Files
Notes/【笔记origin】ESL/6 origin.md
2026-05-16 17:16:51 +08:00

152 lines
6.9 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 第六章 核光滑
KNN引入对30-NN来说拟合的函数并不连续“不连续是不好看并且不必要的”“我们可以分 配权重,使其随着与目标点的距离平滑降低.”
**核:“根据距离远近分配发言权的投票机制。”“核”本质上都在回答一个问题:两个点之间到底有多“亲近”?**
在统计学和机器学习中,**NadarayaWatson 核回归NadarayaWatson Kernel Regression** 是一种非参数预测方法。它的核心思想是:**对于一个新的输入点** $x$**,其预测值** $\hat{f}(x)$ **是训练集中所有目标值** $y_i$ **的加权平均**,而权重的大小取决于训练点 $x_i$ 与查询点 $x$ 之间的距离。
距离越近的点,权重越大;距离越远的点,权重越小。
---
### 1. 数学表达式
假设我们有训练数据集 $\{(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)\}$,对于给定的输入 $x$Nadaraya-Watson 核回归的估算式为:
$$\hat{f}(x) = \sum_{i=1}^{n} w(x, x_i) y_i$$
其中,$w(x, x_i)$ 是**核权重**,定义为:
$$w(x, x_i) = \frac{K\left(\frac{x - x_i}{h}\right)}{\sum_{j=1}^{n} K\left(\frac{x - x_j}{h}\right)}$$
将权重带入回归公式,得到完整的 NadarayaWatson 表达式:
$$\hat{f}(x) = \frac{\sum_{i=1}^{n} K\left(\frac{x - x_i}{h}\right) y_i}{\sum_{j=1}^{n} K\left(\frac{x - x_j}{h}\right)}$$
**符号说明:**
- $K(\cdot)$**核函数Kernel function**。常用的有高斯核 $K(u) = \frac{1}{\sqrt{2\pi}} e^{-\frac{u^2}{2}}$。它必须是非负的,且通常在 0 处取得最大值。
- $h$**带宽Bandwidth**。这是最重要的超参数。$h$ 越大,平滑程度越高(可能欠拟合);$h$ 越小,曲线越波动(可能过拟合)。
- 分母:用于**归一化**,确保所有权重的总和为 1。
### 2. 优缺点
- **优点**:不需要假设数据的具体分布(是非参数的),能够拟合非常复杂的非线性关系。
- **缺点**:计算量大(预测每个点都要遍历整个训练集,复杂度 $O(n)$);容易受“边界偏差”影响;在高维空间表现较差(维度灾难)。
- 核函数在非参数估计中充当局部加权机制,使得函数估计在某一点附近主要依赖邻域数据;当与局部多项式拟合结合时,其效果类似于对目标函数在该点进行加权的局部泰勒近似。
流形:约束、自由度、轨道
- 高维展开:**把复杂函数拆成低维函数的叠加,主动砍掉高阶交互**
**可变系数模型**的定义及其**局部加权最小二乘**估计式:
### 1. 可变系数模型 (Varying Coefficient Model)
该式定义了条件线性模型,其中系数是变量 $Z$ 的函数:
$f(X) = \alpha(Z) + \beta_1(Z)X_1 + \dots + \beta_q(Z)X_q {}$
---
### 2. 局部加权最小二乘估计 (Locally Weighted Least Squares)
该式展示了如何通过目标函数最小化来拟合给定点 $z_0$ 处的参数:
$\min_{\alpha(z_0), \beta(z_0)} \sum_{i=1}^{N} K_\lambda(z_0, z_i) \left( y_i - \alpha(z_0) - x_{1i}\beta_1(z_0) - \dots - x_{qi}\beta_q(z_0) \right)^2 {}$
> 高维函数太复杂 → 用 ANOVA 分解 → 再人为限制只保留低阶结构 → 用 backfitting 或局部回归去估计
### 1. 可变系数模型 (Varying Coefficient Models)
**可变系数模型**是线性模型的推广。它保留了线性模型的易解释性,但允许系数不再是常数,而是随着另一个变量 $Z$(称为调节变量)的变化而变化。
- **核心方程:**
$$f(X) = \alpha(Z) + \beta_1(Z)X_1 + \dots + \beta_q(Z)X_q$$
- **直观理解:** 想象你在研究“工龄”对“薪资”的影响。在线性模型中,这个影响(斜率)是固定的;但在可变系数模型中,这个斜率可以随“行业类型”或“地理位置”($Z$) 而平滑变化。
- **拟合方法:** 通常使用**局部回归**(如式 6.17 所示)。在每一个特定的 $z_0$ 附近,利用核函数 $K_\lambda$ 对样本加权,只看邻近的数据点来估算当前的 $\alpha(z_0)$ 和 $\beta(z_0)$。
---
### 2. 后验拟合算法 (Backfitting Algorithm)
当模型变得复杂(例如**加法模型** $Y = \sum f_j(X_j) + \epsilon$)时,我们无法一次性拟合所有非参数函数。**Backfitting** 是一种“分而治之”的迭代算法。
#### **算法逻辑:**
1. **初始化:** 先给每个函数 $f_j$ 一个初始值(通常是 0
2. **循环迭代:** 对于每一个变量 $j$,计算其“残差”:
$$\text{Residual} = Y - \alpha - \sum_{k \neq j} \hat{f}_k(X_k)$$
3. **局部更新:** 用这个残差对 $X_j$ 进行平滑处理(如移动平均或样条回归),得到更新后的 $\hat{f}_j$。
4. **重复:** 轮流更新所有变量,直到每个函数的变化都非常小(收敛)为止。
> **比喻:** 就像调音师调钢琴。先调准一根弦,此时其他弦可能还不准;于是再去调下一根,如此反复循环,直到整台琴的音准达到平衡。
---
### 3. 两者的联系
- **应用场景:** Backfitting 通常用于拟合**广义加法模型 (GAM)**。
- **计算优势:** 它不需要进行庞大的矩阵求逆只需反复调用简单的平滑算子Smoother这使得它在处理高维数据时非常高效。
- **灵活性:** 你可以轻松地在 Backfitting 框架下加入可变系数项,将复杂的非线性关系拆解为一系列简单的局部一维拟合。
---
**总结表:**
| | | |
|---|---|---|
|**特性**|**可变系数模型**|**Backfitting 算法**|
|**本质**|一种具体的**模型结构**|一种通用的**迭代求解算法**|
|**解决问题**|系数随环境/时间变化的动态性|多个非参数项联立拟合的计算难题|
|**关键点**|局部加权回归|循环更新残差|
这两个概念在处理金融时间序列、流行病学分析以及任何具有“情境相关性”的数据时都非常强大。
在高维情况下,我们不直接拟合 $Y = f(X,Z)$,而是假设:
**X 和 Y 的关系是线性的,但这个线性关系的系数由 Z 决定**
即:
$$Y = \sum_j \beta_j(Z)\, X_j$$
因此问题转化为:**去学习这些函数 $\beta_j(Z)$**
问题:拟合 f(X)
结构假设ANOVA 分解\加性模型\二阶交互模型\可变系数模型
f(X) = g1(X1) + g2(X2) + ...
↓(优化方法)
backfitting
↓(具体拟合)
核平滑 / spline / 局部回归
“阶数为 的自回归(autoregressive)时间序列形式为
“yt = β0 + β1yt1 + β2yt2 + ⋯ + βkytk + εt zt = (yt1, yt2, ⋯ , ytk)”
用记滞后集(lag set),模型则看起来是一个标准的线性模型 ,而且 一般使用最小二乘来拟合.采用核为 的局部最小二乘拟合允许模型 根据序列的短期记忆(short-term history of the series)来变化.这区别于更传统 的因窗口时间变化的动态线性模型.”
第六章可能还需要再看,如**核方法**