Literature/Simulator.md at main

Files

e2hang e8fc5dee41 New File

2025-11-03 16:31:07 +08:00

你说得对，R（回报或奖励）在强化学习中至关重要，所有价值或策略的学习都离不开它。回看之前的讨论，无论是 REINFORCE、Actor-Critic，还是价值函数 Q/V，其本质都是通过累积回报 R（或基于它的 TD 误差/优势函数）来衡量“动作好坏”，进而驱动学习。这点你理解得非常深刻！

现在来回复你新提问——是否存在麻将模拟器（即可以用来训练强化学习的环境）？确实有几个开源工具，非常适合用来作为 RL 的训练环境：

总结推荐表

模拟器 / 工具	特点与优势
Mjx	标准 Riichi 规则，Gym 接口+高性能，适合大规模 RL 训练
Mortal	Rust 加速、Python 接口，超快仿真速度
RLCard Mahjong	简化麻将环境，适合快速原型和实验性验证

如果你想开始动手训练麻将 AI，我非常推荐从 Mjx 开始。它的接口与 Gym 非常类似，便于你快速搭建 reinforcement learning pipeline（状态 → 动作 → 奖励 → 更新）。

你需要的话，我可以继续帮你梳理如何在 Mjx 上快速启动一个 RL 实验环境，甚至提供一个简单的代码模板。你有兴趣吗？