maddpg训练

源码

环境配置

  • dependencies:

    python 3.6.13(创建虚拟环境 conda create -n env python=3.6
    gym 0.10.5()
    numpy 1.14.5
    tensorflow 1.8.0

  • 分别进入maddpg和MPE根目录下,执行pip install -e .
  • 将multiagent复制到maddpg根目录下

代码运行

  • 进入experiments文件夹下,执行python train.py --scenario env --display

    –scenario 场景选择
    –display 训练过程中可观测图像

MPE源码解析

gym

  • env.action_space:动作空间

    Discrete(n):离散空间,n维,用法env.space.Discrete(2)
    Box(n, ) :离散空间,n维,用法env.space.Box(2)
    env.action_space.sample():在动作空间中随机选取一个作为输出

  • env.observation:观测空间

    Discrete(n):离散空间,n维,用法env.space.Discrete(2)
    Box(n, ) :离散空间,n维,用法env.space.Box(2)

  • env.step(action):执行动作,反馈状态,计算奖励 返回值包括:observation、reward、done、info

    observation:当前状态信息
    reward:执行动作后的奖励值
    done:表示游戏是否已完成,完成则重置,开始新回合
    info:用于debug的信息

  • 创建新场景

    make_world( ):创建实体,实体参数设置等
    reset_world( ):环境重置,初始状态设置,颜色等设置
    reward( ):奖励函数
    observation( ):状态
    benchmark_data( ):为策略提供评价指标