MuZero与Tensorflow中的AlphaZero 我们提供了基于流行的AlphaZero-General实施的AlphaZero和MuZero算法的可读性,注释性,充分记录的以及概念上容易实现的算法。 我们的实现将AlphaZero扩展为可用于单人游戏域,例如其后续产品MuZero。 该代码库提供了一个模块化框架来设计您自己的AlphaZero和MuZero模型,以及一个API来使这两种算法相互抵触。 该API还允许MuZero代理在与环境交互过程中更加强烈地依赖其学习的模型。 程序员可以例如指定在试验期间对所学的MuZero代理的观察稀疏性。 我们的界面还提供了足够的抽象来扩展MuZero或AlphaZero算法,以用于研究目的。 请注意,我们没有在桌游上进行广泛的测试,我们体验到这非常耗时且难以调整。 经过良好测试的环境包括“健身房”环境:CartPole-v1,Mount
1
MuZero 算法原版论文
2021-08-16 19:12:24 2.58MB MuZero algorithm
1
零 该存储库是MuZero算法的Python实现。 它基于和描述Muzero框架的。 神经计算是通过Tensorflow实现的。 您可以轻松地训练自己的MuZero,特别是针对一个播放器和非基于图像的环境(例如 )。 如果您希望在其他类型的环境上训练Muzero,则可以对该代码库进行少量修改即可使用。 免责声明:此代码是早期研究代码。 这意味着: 可能存在无提示的错误。 它可能无法在其他环境或其他超参数上可靠地工作。 相当缺乏代码质量和文档,并且许多代码可能仍感觉“正在进行中”。 培训和测试管道不是很先进。 依存关系 我们使用以下代码运行此代码: conda4.7.12 Python 3.7 Tensorflow 2.0.0 脾气暴躁的1.17.3 训练您的MuZero 此代码必须从muzero.py的main函数运行(不要忘记首先配置conda环境)。 训练Cart
1