DouZero:Mastering DouDizhu with Self-Play Deep Reinforcement Learning

Demo

DouZero demo

background

reinforcement learning(强化学习)

  • 定义:对于某一任务,如果某一策略可以得到较好的效果,则不断强化该策略
  • 状态:某一策略在某一时刻所能看到的全部信息
  • 动作:某一状态下做出的一个行为
  • 算法分类:Q-Learning、Policy Optimization(策略优化)

algorithm

编码

DouZero编码方式

  • 4x15矩阵(15表示1-K和Joker,每列代表一种牌;4表示每种牌的数量)
  • 0/1编码
  • 花色???

Deep Monte-Carlo

DouZero网络

  • Input: 状态(过去的出牌用LSTM编码 / 当前信息编码) + 动作(当前出去)
  • Output: 输出价值