博弈+RL

Posted on 2022-05-13

强化学习应用

智能体：角色
环境：对世界的完整描述
动作：
奖励：环境对动作给的反馈，极大化最终目的
状态：当前环境

单智能体

alaphgo等棋牌类游戏

多智能体

多个决策体在合作、竞争、混合博弈环境下
完全与非完全信息、完美与非完美信息等各类条件下
做出最优决策，并最大化决策目标
特点&难点：实时对抗、群体协作、非完全信息对弈、庞大的搜索空间、多复杂任务、长远全局规划
星际争霸

国防军事领域应用

军事对抗可以建模为大量可指挥多智能体构成的复杂系统间的竞争性博弈
多智能体算法可应用于无人机群/星群协同编队、指挥决策、资源调度等

无人机/卫星集群对抗（柯良军）

分为红蓝阵营，目标分别为进攻与防守
基于平均场理论设计状态共享、奖励共享、平均动作等机制
建立智能体与临近智能体间的协作通信
形成自组织、自适应特点和拟人思维属性，通过感知环境并依据多智能体强化学习训练得到的规则，以及采取攻击、避让、分散、集中、协作、援助等有利策略，在系统整体上涌现出集群对抗的动态特性。