源码
环境配置
- dependencies:
python 3.6.13(创建虚拟环境
conda create -n env python=3.6
)
gym 0.10.5()
numpy 1.14.5
tensorflow 1.8.0 - 分别进入maddpg和MPE根目录下,执行
pip install -e .
- 将multiagent复制到maddpg根目录下
代码运行
-
进入experiments文件夹下,执行
python train.py --scenario env --display
–scenario 场景选择
–display 训练过程中可观测图像
MPE源码解析
gym
-
env.action_space:动作空间
Discrete(n):离散空间,n维,用法
env.space.Discrete(2)
Box(n, ) :离散空间,n维,用法env.space.Box(2)
env.action_space.sample()
:在动作空间中随机选取一个作为输出 - env.observation:观测空间
Discrete(n):离散空间,n维,用法
env.space.Discrete(2)
Box(n, ) :离散空间,n维,用法env.space.Box(2)
- env.step(action):执行动作,反馈状态,计算奖励
返回值包括:observation、reward、done、info
observation:当前状态信息
reward:执行动作后的奖励值
done:表示游戏是否已完成,完成则重置,开始新回合
info:用于debug的信息 - 创建新场景
make_world( ):创建实体,实体参数设置等
reset_world( ):环境重置,初始状态设置,颜色等设置
reward( ):奖励函数
observation( ):状态
benchmark_data( ):为策略提供评价指标