| huhuzwxy

Posted on 2022-08-01

DouZero:Mastering DouDizhu with Self-Play Deep Reinforcement Learning

Demo

background

reinforcement learning（强化学习）

定义：对于某一任务，如果某一策略可以得到较好的效果，则不断强化该策略
状态：某一策略在某一时刻所能看到的全部信息
动作：某一状态下做出的一个行为
算法分类：Q-Learning、Policy Optimization（策略优化）

algorithm

编码

4x15矩阵（15表示1-K和Joker，每列代表一种牌；4表示每种牌的数量）
0/1编码
花色？？？

Deep Monte-Carlo

Input: 状态（过去的出牌用LSTM编码 / 当前信息编码） + 动作（当前出去）
Output: 输出价值