Literature/策略学习.md at e8fc5dee419211142d89a84c070e18fe40ddd6c4

e2hang/Literature

Fork 0

Files

e2hang e8fc5dee41 New File

2025-11-03 16:31:07 +08:00

24 KiB

Raw Blame History

你提到的这个类比很有意思，我帮你分析一下：

1️⃣ 强化学习里的参数关系

在强化学习（RL）中，我们通常有：

状态 $s_t$
动作 $a_t$
策略 $\pi(a|s; \theta)$ → 神经网络参数 \theta
价值函数 V(s) 或 $Q(s,a)$ → 参数 \phi

RL 的目标是学一组参数，使得 策略最大化累积奖励。

参数依赖问题

如果某些参数之间完全线性或函数依赖：
- 神经网络可能退化成“部分参数无效”
- 训练可能不稳定，梯度更新会“冗余”或者“冲突”
类比数字逻辑电路：
- 逻辑电路里不允许两个完全依赖的信号去控制不同逻辑，否则会出现短路或环路
- RL 网络中，如果不同层或不同模块参数过度依赖，也可能导致 梯度消失/爆炸或策略震荡

实际处理方法

网络结构设计
- Actor-Critic 分开两个网络：策略网络 \theta 和价值网络 \phi
- 尽量减少直接依赖，让它们通过“共享特征层”而不是直接参数耦合
正则化与归一化
- L2 正则化、批归一化（BatchNorm）可以减少参数间不必要的强依赖
经验回放与目标网络
- DQN 用经验回放打破时间相关性
- 用目标网络（target network）降低参数更新依赖引起的震荡

🔑 核心理解

强化学习本质是 基于反馈的优化
完全依赖的参数会降低学习效率，容易导致训练不稳定
适当的“去耦”或“弱依赖”能让网络学得更稳健

如果你愿意，我可以帮你画一个 RL网络参数依赖示意图，用图直观展示哪些参数可以共享，哪些不能完全依赖，看起来就像数字逻辑电路一样。

你想让我画吗？ “去耦合”和“弱依赖”是软件工程、系统设计以及架构设计中常用的概念，它们本质上都是为了降低模块之间的紧密耦合，提高系统的灵活性、可维护性和可扩展性。我们来逐一解释，并结合例子。

1️⃣ 去耦合（Decoupling）

定义：去耦合指的是系统中各个模块或组件之间尽量减少直接依赖，使它们可以相对独立地开发、修改、替换或复用。

核心思想：模块之间不紧密绑定，变化局部化。
目的：降低系统的复杂性，提高可维护性和可扩展性。

举例：

直接耦合：

class Engine {
public:
    void start() { /* 启动发动机 */ }
};

class Car {
    Engine engine; // 直接依赖Engine
public:
    void drive() {
        engine.start(); // 直接调用
    }
};

这里 Car 与 Engine 紧密耦合，如果要换一个 ElectricEngine，就必须改 Car 类。

去耦合（通过接口/抽象）：

class IEngine {
public:
    virtual void start() = 0;
};

class GasEngine : public IEngine {
public:
    void start() override { /* 启动汽油发动机 */ }
};

class ElectricEngine : public IEngine {
public:
    void start() override { /* 启动电动机 */ }
};

class Car {
    IEngine* engine; // 依赖接口而不是具体实现
public:
    Car(IEngine* e) : engine(e) {}
    void drive() { engine->start(); }
};

这样 Car 不再依赖具体引擎类型，替换、扩展引擎不会影响 Car 类本身。

2️⃣ 弱依赖（Loose Coupling / Weak Dependency）

定义：弱依赖是一种依赖关系，它比强依赖（tight coupling）更灵活，模块之间的耦合度低，一个模块的修改对另一个模块的影响较小。

核心思想：模块之间通过接口、消息、事件或数据传输等“间接方式”交互，而不是直接调用具体实现。
特点：
1. 可独立修改、升级。
2. 降低模块间的相互影响。
3. 易于测试和复用。

举例：

强依赖：

class Logger {
public:
    void log(const std::string& msg) { /* 写入文件 */ }
};

class UserService {
    Logger logger;
public:
    void createUser() {
        // 用户创建逻辑
        logger.log("用户创建成功");
    }
};

UserService 强依赖于 Logger 的具体实现。

弱依赖（通过接口或回调）：

class ILogger {
public:
    virtual void log(const std::string& msg) = 0;
};

class UserService {
    ILogger* logger; // 依赖接口
public:
    UserService(ILogger* l) : logger(l) {}
    void createUser() {
        // 用户创建逻辑
        if (logger) logger->log("用户创建成功");
    }
};

这里 UserService 只依赖 ILogger 接口，不关心具体实现，实现了弱依赖。

🔑 总结区别与联系

概念	目标	方法	例子
去耦合	降低模块间直接耦合	接口/抽象、事件、消息、依赖注入	`Car`依赖`IEngine`而不是具体`Engine`
弱依赖	降低修改影响，增强灵活性	依赖接口、回调、观察者模式	`UserService`依赖`ILogger`接口而非具体`Logger`

可以理解为：“去耦合”是大方向，“弱依赖”是实现手段之一。

如果你愿意，我可以帮你画一张去耦合 vs 强依赖 vs 弱依赖的图示，看一次就能直观理解它们的区别。

你希望我画吗？

可以这么理解，但要稍微精确一点：策略学习不必须依赖价值学习，但通常用价值函数来辅助量化和稳定策略梯度。

1️⃣ 纯策略梯度（REINFORCE）

不依赖价值函数
用 Monte Carlo 回报直接估计策略梯度：


\nabla_\theta J(\theta) \approx \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) \, R_t

这里 R_t 是从 t 时刻到终局的累积奖励，直接作为量化信号
缺点：方差很大，不稳定

2️⃣ 引入价值函数辅助（Advantage / Actor-Critic）

引入 Vπ(s) 或 Qπ(s,a) 的目的是降低方差，提高训练效率
策略梯度变为：


\nabla_\theta J(\theta) = \mathbb{E}_\pi [ \nabla_\theta \log \pi_\theta(a_t|s_t) \, (Q_\pi(s_t,a_t) - V_\pi(s_t)) ]

Advantage = Q−V 提供相对价值
Critic 学 Vπ 或 Qπ → Actor 更新 π

3️⃣ 理解上的关系

策略学习可以独立存在：用 MC 回报也能更新策略，不必学价值函数
价值学习是策略学习的辅助工具：提供数值化的参考（优势函数或 TD 误差）
Actor-Critic 就是把两者结合起来，Critic 提供即时量化信号，Actor 更新策略

✅ 总结一句话：

策略学习本质上是直接优化策略，价值学习是一个可选的辅助，它让策略的量化更精确、更稳定。

如果你愿意，我可以画一张图，把 纯策略梯度 vs 有价值辅助的策略梯度 vs Actor-Critic 的关系直观展示出来，你一眼就能看出策略和价值的联系。

你想让我画吗？对，这里 π（pi）就是策略函数，它的作用是告诉我们在某个状态下采取各个动作的概率分布。具体解释如下：

1️⃣ π(a|s) 的含义

输入：状态 s
输出：动作 a 的概率
数学表示：


\pi_\theta(a|s) = P(a_t = a \mid s_t = s; \theta)

如果动作空间是离散的：
- π(s) 是一个长度为 |A| 的向量，每个元素是对应动作的概率
- 例如麻将中可以打哪些牌，π(s) 给出每张牌被打出的概率
如果动作空间是连续的：
- π(s) 返回一个概率密度函数（比如正态分布的均值和方差）

2️⃣ Actor 的作用

在 Actor-Critic 或策略梯度中：

Actor 网络就是 πθ(s)
Actor 根据 πθ(s) 采样动作 a → 执行环境
Critic 给出价值信号（V 或 Advantage）
Actor 根据梯度更新 πθ，使“好动作的概率更大、坏动作的概率更小”

3️⃣ 举个简单例子（离散动作）

假设在某个状态 s，有三个可选动作 {打1万, 打2万, 打3万}：


\pi_\theta(s) = [0.1, 0.7, 0.2]

Actor 会以 10% 的概率打 1万，70% 打 2万，20% 打 3万
Critic 评估这些动作的价值，然后 Actor 调整概率，让更好的动作概率更高

💡 总结：

π 函数输出的是动作的概率分布
Actor 的目标就是调整 π，让高价值动作的概率增加
Critic 提供数值化信号（V 或 Advantage）指导 π 的更新

如果你愿意，我可以画一张小图，把 状态 → π(a|s) → 动作采样 → Critic反馈 → Actor更新 的流程画出来，让整个策略-价值闭环直观可见。

你希望我画吗？明白了，我们来仔细拆开 REINFORCE（纯策略梯度） 的量化机制。其实它的“量化”很简单，但跟你想象的可能不太一样。

1️⃣ REINFORCE 的目标

REINFORCE 是最基础的策略梯度算法，它直接优化期望回报：


J(\theta) = \mathbb{E}_\pi \Big[ \sum_{t=0}^{T} r_t \Big]

这里的期望是针对策略 πθ 生成的轨迹（state-action序列）而言的。

θ 是策略参数
r_t 是 t 步获得的即时奖励

目标：找到 θ 使得期望总奖励最大

2️⃣ 梯度公式

策略梯度定理告诉我们：


\nabla_\theta J(\theta) = \mathbb{E}_\pi \Big[ \nabla_\theta \log \pi_\theta(a_t|s_t) \, R_t \Big]

其中：

a_t 是 t 时刻动作
s_t 是 t 时刻状态
R_t = \sum_{k=t}^T r_k 是从 t 时刻到终局的累计奖励

这里的量化信号就是 R_t

3️⃣ 量化机制解释

动作量化：通过 \nabla_\theta \log \pi_\theta(a_t|s_t)
- 计算“如果我改变 θ，会改变 π(a|s) 的概率多少”
策略好坏量化：通过 R_t
- R_t 大 → 这条轨迹/动作好 → Actor 增大选动作的概率
- R_t 小 → 动作差 → Actor 减小概率

所以 REINFORCE 的量化就是用每条轨迹的累计回报作为信号，告诉策略：

“这一步动作好不好？好就增加概率，差就减少概率”

4️⃣ 与 Actor-Critic 的对比

算法	量化信号
REINFORCE	R_t（轨迹累计回报）
Actor-Critic	δ = r + γV(s') − V(s)（即时 TD 误差）

REINFORCE 是Monte Carlo方式，必须等到终局才能得到 R_t → 高方差
AC 用 Critic 预测 V(s) → 得到即时的优势 A(s,a) → 更稳定

5️⃣ 用一句话总结

REINFORCE 的量化信号就是每个动作最终得到的累积回报，用它去衡量“动作好坏”，直接指导策略梯度更新。

如果你愿意，我可以帮你画一张REINFORCE量化流程图，从状态→动作→回报→梯度，让你直观理解它是怎么量化动作好坏的。

你想让我画吗？完全对，你理解得很准确，这正是策略梯度的核心思想。我们可以把它再稍微系统化说明一下：

1️⃣ 状态 s 的随机选择

每次遇到状态 s：
- 根据当前策略 πθ(a|s) 随机采样动作 a
- 这就是“探索”，保证策略不会总是选同一个动作，从而能发现潜在更优动作

2️⃣ 后续反馈量化策略好坏

执行动作 a 后，会得到一条轨迹（未来奖励序列）
用 REINFORCE：
- 累积奖励 R_t = r_t + r_{t+1} + \dots
- 作为动作 a 在状态 s 下的“价值信号”
用 Actor-Critic：
- Critic 预测 V(s) 或计算 TD 误差 δ
- δ 作为动作 a 的优势，告诉 Actor 这个动作比平均水平好还是差

3️⃣ 更新 θ

梯度更新公式：


\theta \gets \theta + \alpha \nabla_\theta \log \pi_\theta(a|s) \cdot (\text{回报或优势})

直观理解：
- 如果动作好 → 增加 θ，让 a 在 s 下更可能被选
- 如果动作差 → 减少 θ，让 a 概率降低

4️⃣ 重复循环

每次遇到 s 都会采样动作 → 累积反馈 → 调整 θ
这样策略会随着训练不断优化，对同一状态 s，高价值动作概率越来越大，低价值动作概率越来越小
同时保持一定随机性，保证探索空间

💡 一句话总结：

策略梯度就是：遇到相同状态 s → 按当前策略随机选动作 → 根据后续回报量化动作好坏 → 调整 θ → 下一次遇到 s 时，策略概率更倾向于好动作。

如果你愿意，我可以画一张状态 s → 动作采样 → 轨迹 → 回报 → θ 更新 → 下一次 s的流程图，把策略随机性和梯度更新的循环直观展示出来。

你想让我画吗？对的，你理解完全正确！在策略梯度方法里，无论是离散动作还是连续动作，最终调整的就是策略函数 πθ(a|s) 的概率分布。我帮你详细拆开说明：

1️⃣ 离散动作情况

πθ(a|s) 输出的是每个动作的选择概率
θ 是策略的参数（神经网络权重或其他可训练参数）
梯度更新：


\theta \gets \theta + \alpha \nabla_\theta \log \pi_\theta(a|s) \cdot (\text{回报或优势})

直观理解：
- 好动作 → π(a|s) 概率增大
- 差动作 → π(a|s) 概率减小
所以 θ 调整的本质就是 改变 π 的概率分布，让高价值动作更可能被选中

2️⃣ 连续动作情况

πθ(a|s) 输出的是概率密度函数（比如均值 μ(s) 和方差 σ²(s)）
Actor 调整的是 μ、σ 等参数
采样动作 a ~ πθ(a|s)
更新 θ 的效果就是 改变连续动作的概率密度分布，使高价值区域的密度增大

3️⃣ 核心结论

策略梯度优化的目标不是直接调整动作 a
而是调整参数 θ，让 πθ(a|s) 的概率分布更倾向于高价值动作
换句话说：
- 每次遇到相同状态 s，动作仍然是随机选择
- 但高价值动作被选中的概率会越来越大

💡 一句话总结：

策略梯度最终调整的是策略函数 πθ(a|s) 的概率分布（或概率密度），让策略在同一状态下更倾向选择高价值动作。

如果你愿意，我可以画一张小图，把 状态 s → πθ(a|s) → 动作采样 → 反馈 → θ 更新 → π 分布改变 的完整闭环直观展示出来，让整个量化机制一目了然。

你想让我画吗？完全正确！你可以把 θ 看作策略函数 π(a|s; θ) 的参数向量，类似神经网络里的权重 w。具体理解如下：

1️⃣ π(a | s; θ) 的结构

输入：状态 s
输出：动作 a 的概率（或概率密度）
θ：可训练参数（比如神经网络的权重和偏置）

写成 π(a|s; θ) 就明确指出：策略函数依赖于 θ，不同 θ 对应不同的动作分布。

2️⃣ θ 的作用

决定了在状态 s 下，每个动作被选择的概率
Actor 的训练就是调整 θ，让 π(a|s; θ) 更倾向选择高价值动作
和神经网络一样：
- 前向传播：根据 θ 输出概率分布
- 反向传播：根据梯度调整 θ
- 不同的是，这里的梯度来自策略梯度公式 \nabla_\theta \log \pi_\theta(a|s) \cdot (\text{回报或优势})

3️⃣ 对比理解

名称	类比
θ	神经网络权重 w
π(a	s;θ)	神经网络输出（动作概率）
∇θ J(θ)	反向传播梯度（告诉 θ 如何调整）
Actor 更新	梯度上升 / 权重更新

💡 一句话总结：

π(a|s; θ) 是策略函数，θ 就是参数（类似神经网络权重），策略梯度就是通过梯度上升不断调整 θ，让高价值动作概率增大。

如果你愿意，我可以画一张图，把 状态 s → π(a|s;θ) → 动作采样 → 反馈 → 梯度 → θ 更新 的闭环流程可视化，直观显示 θ 的作用。

你希望我画吗？明白了，你现在的核心困惑是：在策略梯度里，Actor 实际上根据什么“反馈”去更新 θ，也就是 量化动作好坏的信号到底是什么。我们一步步理清楚。

1️⃣ 策略梯度的更新公式回顾


\nabla_\theta J(\theta) = \mathbb{E}_\pi \Big[ \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot Q_\pi(s_t, a_t) \Big]

\nabla_\theta \log \pi_\theta(a_t|s_t) → 告诉我们“如果改变 θ，会怎么改变动作 a 的概率”
Q_\pi(s_t, a_t) → 动作好坏的量化反馈信号

所以反馈就是 Q 或它的估计。

2️⃣ 不同算法下反馈的具体形式

算法	反馈信号是什么	说明
REINFORCE	`R_t = \sum_{k=t}^T r_k`	从 t 时刻到终局的累计奖励（Monte Carlo），告诉动作 a 在 s 下好坏
Actor-Critic	`\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)`	TD 误差 / Advantage，告诉动作 a 比平均水平好还是差
A2C / GAE	`A(s_t,a_t) = Q(s_t,a_t) - V(s_t)`	优势函数，量化动作相对状态的价值

核心思想：反馈就是一个数值，量化这个动作在当前状态下比平均水平好还是差

3️⃣ 反馈的直观理解

Actor 在状态 s 选择动作 a
环境给出奖励 r_t 或轨迹回报 R_t
Critic（如果有）估计 V(s) → 得到 δ 或 Advantage
这个数值告诉 Actor：
- δ > 0 → 增加动作概率
- δ < 0 → 减少动作概率

换句话说，反馈就是“动作好坏的即时或累积数值”，Actor 用它来指导概率分布调整

4️⃣ 举个麻将例子

状态 s：你手牌 + 场上信息
动作 a：打某张牌
环境反馈：
- REINFORCE：等到局结束算总点数 → 得到 R_t
- Actor-Critic：局中算局部得失或顺位变化 → 得到 δ
Actor 根据 δ 或 R_t 调整 π(a|s; θ)，让更有利的打牌概率增大

💡 一句话总结：

在策略梯度里，反馈就是量化动作好坏的数值信号（累积回报或优势），Actor 根据这个数值调整 θ，让好动作概率增加，差动作概率减少。

如果你愿意，我可以画一张图，把 状态 s → 动作 a → 环境 → 反馈 δ/R → θ 更新 → π(a|s) 改变 的完整闭环直观展示出来，让你一眼就能看懂“反馈是什么”。

你希望我画吗？完全正确，你理解得很到位！✅

1️⃣ REINFORCE 的反馈就是 R

在 REINFORCE 中，Actor 并不依赖 Critic 或 V 函数
反馈直接就是 从 t 时刻开始到终局的累计奖励：


R_t = r_t + r_{t+1} + r_{t+2} + \dots + r_T

这个 R_t 作为 动作 a 在状态 s 下的量化信号，指导梯度更新：


\theta \gets \theta + \alpha \, \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot R_t

2️⃣ 与价值学习的 MC 的相似之处

最基础的 MC 价值学习：
- 学 Vπ(s) 或 Qπ(s,a)
- 直接用累积回报 R 来更新估计值：
```
V(s_t) \gets V(s_t) + \alpha \, (R_t - V(s_t))
```
REINFORCE：
- 不更新 V 或 Q，而是用 R_t 直接作为策略梯度的权重
- 本质上是用累积奖励 量化动作好坏

✅ 所以 REINFORCE 和最基础的 MC 价值学习很像，都是依赖 从当前状态到终局的回报 R 来做更新，只不过 MC 学的是价值，REINFORCE 学的是策略。

可以这么理解：

MC 价值学习：R → V(s)
REINFORCE 策略学习：R → π(a|s) 的概率
都是 用累积回报量化好坏，只是作用对象不同

如果你愿意，我可以画一个对比图，把 MC 价值学习和 REINFORCE 策略学习 的更新流程并列展示，一眼就能看出它们的相似点和区别。

你希望我画吗？是的，你可以这样理解，但需要稍微精准一点区分概念：Q 和 V 的本质都是基于累积回报 R，只不过它们的作用对象和定义不同。

1️⃣ V(s) 与 R 的关系

定义：


V_\pi(s) = \mathbb{E}_\pi \big[ R_t \mid s_t = s \big] = \mathbb{E}_\pi \Big[ \sum_{k=t}^T r_k \,\big|\, s_t = s \Big]

意思是：在状态 s 下，按照策略 π 行动，从这个状态开始的期望累积回报
可以理解为：V(s) = “期望 R”，即返回值是 R 的期望

2️⃣ Q(s,a) 与 R 的关系

定义：


Q_\pi(s,a) = \mathbb{E}_\pi \big[ R_t \mid s_t = s, a_t = a \big] = \mathbb{E}_\pi \Big[ \sum_{k=t}^T r_k \,\big|\, s_t = s, a_t = a \Big]

意思是：在状态 s 下执行动作 a，然后按照策略 π 行动，期望累积回报
可以理解为：Q(s,a) = “如果我现在做 a，期望 R是多少”

3️⃣ 总结理解

V(s) 和 Q(s,a) 本质都是基于 R 的期望
区别：
- V(s) → 状态的价值（平均水平）
- Q(s,a) → 状态-动作对的价值（执行特定动作后的期望回报）
在 MC 或 REINFORCE 的最基础形式中：
- 直接用累积回报 R 更新 Q 或 V
- Actor-Critic 则用估计的 V(s) 或 Advantage 做即时更新

💡 一句话总结：

Q 和 V 本质上都是基于累积回报 R 的量化，只是 Q 针对状态-动作对，V 针对状态本身；它们的“返回值”就是未来累积奖励 R 的期望。

如果你愿意，我可以画一张图，把 R → V(s) / Q(s,a) → 策略更新 的关系可视化，让你直观理解它们都是基于 R 的量化。

你希望我画吗？不完全是直接“得到 $Q^*$”——我帮你分层解释一下：

1. Actor-Critic 的目标

Actor（策略）：参数化一个策略 $\pi_\theta(a|s)$，目标是学到近似最优的策略 $\pi^*$。
Critic（价值函数）：估计给定策略 \pi 下的价值函数，可以是 V^\pi(s) 或 $Q^\pi(s,a)$。

训练时 Critic 提供 对 Actor 策略梯度更新的指导信号。最终，Actor 被更新到一个尽可能好的策略。

2. 和 `Q^*` 的关系

在 **理想情况（无限数据、完美逼近、收敛）**下，Actor 会收敛到最优策略 $\pi^*$。
对应的 Critic 估计的就是 V^{\pi^*} 或 $Q^{\pi^*}$，也就是最优价值函数。

换句话说，Actor-Critic 最终确实是间接逼近 $Q^*$，但是它主要是通过学习策略 $\pi$，而不是像 Q-learning 一样直接用 Bellman 最优方程来学 $Q^*$。

3. 直观比喻

Q-learning：直接学「地图」（最优 $Q^*$），然后从地图里挑路。
Actor-Critic：一边学「走路习惯」（策略），一边学「走路好不好」（价值），最后走出来的习惯如果收敛了，就是最优习惯，也等价于走出最优路线。

✅ 结论： Actor-Critic 的最终目标是得到 近似最优策略 $\pi^*$，对应的 Critic 价值函数也就逼近 $Q^$。所以它不是直接追求 $Q^$，而是通过 Actor 的优化过程间接收敛到 $Q^*$。

要不要我帮你画一个 Q-learning vs Actor-Critic 的对比图（两条路径，一个是直接学Q，一个是通过策略迭代间接逼近Q）？对，你理解得已经很到位了 👍。我再帮你精炼一下：

1. Q-learning 系列

目标：直接逼近最优动作价值函数 $Q^*(s,a)$。
方法：通过 Bellman 最优方程更新，使得网络参数逐渐收敛到 $Q^*$。
策略产生：最终策略是从 Q^* 中贪心地选择动作 $\pi^(s)=\arg\max_a Q^(s,a)$。 ➡️ 核心：直接模拟 $Q^*$。

2. Actor-Critic 系列

目标：通过策略梯度不断改进策略 $\pi_\theta$。
Critic 的角色：估计 V^\pi 或 $Q^\pi$，只是在训练时作为 优化信号。
收敛时：若达到全局最优，$\pi_\theta \to \pi^$，对应的 Critic 自然收敛到 $V^{\pi^}, Q^{\pi^*}$。 ➡️ 核心：先优化策略，价值函数只是辅助。

3. 总结类比

Q-learning：
- 先学“全局地图” (Q^*)，再根据地图走路。
Actor-Critic：
- 边走路边修正习惯，习惯（策略）养成后，自然等价于知道了最优地图。

所以你说的没错：

两者理论上最终都能逼近 $Q^{\pi^*}$。
区别在于路径：
- Q-learning = 值驱动。
- Actor-Critic = 策略驱动。

要不要我帮你总结成一张表格（Q-learning vs Actor-Critic 的核心差异）？这样复习的时候会特别清晰。

24 KiB Raw Blame History Unescape Escape

1️⃣ 强化学习里的参数关系

参数依赖问题

实际处理方法

🔑 核心理解

1️⃣ 去耦合（Decoupling）

2️⃣ 弱依赖（Loose Coupling / Weak Dependency）

🔑 总结区别与联系

1️⃣ 纯策略梯度（REINFORCE）

2️⃣ 引入价值函数辅助（Advantage / Actor-Critic）

3️⃣ 理解上的关系

1️⃣ π(a|s) 的含义

2️⃣ Actor 的作用

3️⃣ 举个简单例子（离散动作）

1️⃣ REINFORCE 的目标

2️⃣ 梯度公式

3️⃣ 量化机制解释

4️⃣ 与 Actor-Critic 的对比

5️⃣ 用一句话总结

1️⃣ 状态 s 的随机选择

2️⃣ 后续反馈量化策略好坏

3️⃣ 更新 θ

4️⃣ 重复循环

1️⃣ 离散动作情况

2️⃣ 连续动作情况

3️⃣ 核心结论

1️⃣ π(a | s; θ) 的结构

2️⃣ θ 的作用

3️⃣ 对比理解

1️⃣ 策略梯度的更新公式回顾

2️⃣ 不同算法下反馈的具体形式

3️⃣ 反馈的直观理解

4️⃣ 举个麻将例子

1️⃣ REINFORCE 的反馈就是 R

2️⃣ 与价值学习的 MC 的相似之处

1️⃣ V(s) 与 R 的关系

2️⃣ Q(s,a) 与 R 的关系

3️⃣ 总结理解

1. Actor-Critic 的目标

2. 和 Q^* 的关系

3. 直观比喻

1. Q-learning 系列

2. Actor-Critic 系列

3. 总结类比

24 KiB

Raw Blame History

2. 和 `Q^*` 的关系