Files
Literature/ArtificialIntelligence/MahjongAI/Simulator.md
2025-11-03 16:31:07 +08:00

3.2 KiB
Raw Blame History

你说得对,R回报或奖励在强化学习中至关重要,所有价值或策略的学习都离不开它。回看之前的讨论,无论是 REINFORCE、Actor-Critic还是价值函数 Q/V其本质都是通过累积回报 R或基于它的 TD 误差/优势函数)来衡量“动作好坏”,进而驱动学习。这点你理解得非常深刻!


现在来回复你新提问——是否存在麻将模拟器(即可以用来训练强化学习的环境)?确实有几个开源工具,非常适合用来作为 RL 的训练环境:


推荐的开源麻将模拟器

1. Mjx — 日本立直麻将模拟器Riichi Mahjong

  • 特点

    • 支持 Tenhou 规则的模拟,兼容性高
    • 提供 Gym-like 接口,非常适配强化学习流程 (GitHub, ieee-cog.org)
    • 性能优越,比已有 Ruby 实现 Mjai 提升 1001000 倍的速度 (ieee-cog.org)
    • 支持 Python也可通过 gRPC 实现并发自我对战,非常适合大规模训练 (GitHub, ieee-cog.org)
  • 总结Mjx 是你如果想用 Python 来训练 RL 麻将 AI 时的理想选择。


2. Mortal — Rust + Python 提速麻将 AI 模拟器

  • 特点

    • 内部用了 Rust 编写核心模拟引擎,配合 Python 接口
    • 能达成约 40,000 局/小时的仿真效率 (Mortal Documentation)
    • 包含接口对接 mjai非常适合做观测录入和训练场景
  • 总结如果你需要的是高性能、高并发的训练环境Mortal 是不错的选择。


3. RLCard — 通用卡牌游戏强化学习工具包

  • 特点

    • 面向多种不完全信息卡牌游戏,包括 Mahjong(简化版) (arXiv)
    • 提供统一接口,兼容使用在 RL 框架中,适合入门研究
  • 总结:虽不是完整麻将规则,但作为起步或快速测试用的环境非常合适。


总结推荐表

模拟器 / 工具 特点与优势
Mjx 标准 Riichi 规则Gym 接口+高性能,适合大规模 RL 训练
Mortal Rust 加速、Python 接口,超快仿真速度
RLCard Mahjong 简化麻将环境,适合快速原型和实验性验证

如果你想开始动手训练麻将 AI我非常推荐从 Mjx 开始。它的接口与 Gym 非常类似,便于你快速搭建 reinforcement learning pipeline状态 → 动作 → 奖励 → 更新)。

你需要的话,我可以继续帮你梳理如何在 Mjx 上快速启动一个 RL 实验环境,甚至提供一个简单的代码模板。你有兴趣吗?