搜索【muzero】的结果

muzero:遵循AlphaZero General框架的MuZero和AlphaZero的干净实现。训练和深化这两种算法，并研究所学的MuZero MDP模型的可靠性

MuZero与Tensorflow中的AlphaZero 我们提供了基于流行的AlphaZero-General实施的AlphaZero和MuZero算法的可读性，注释性，充分记录的以及概念上容易实现的算法。我们的实现将AlphaZero扩展为可用于单人游戏域，例如其后续产品MuZero。该代码库提供了一个模块化框架来设计您自己的AlphaZero和MuZero模型，以及一个API来使这两种算法相互抵触。该API还允许MuZero代理在与环境交互过程中更加强烈地依赖其学习的模型。程序员可以例如指定在试验期间对所学的MuZero代理的观察稀疏性。我们的界面还提供了足够的抽象来扩展MuZero或AlphaZero算法，以用于研究目的。请注意，我们没有在桌游上进行广泛的测试，我们体验到这非常耗时且难以调整。经过良好测试的环境包括“健身房”环境：CartPole-v1，Mount

2022-05-20 10:22:40 8.59MB reinforcement-learning deep-learning tensorflow deep-reinforcement-learning

1

MuZero 算法原版论文（1911.08265.pdf）

MuZero 算法原版论文

2021-08-16 19:12:24 2.58MB MuZero algorithm

1

MuZero:MuZero的结构化实现-源码

零该存储库是MuZero算法的Python实现。它基于和描述Muzero框架的。神经计算是通过Tensorflow实现的。您可以轻松地训练自己的MuZero，特别是针对一个播放器和非基于图像的环境（例如）。如果您希望在其他类型的环境上训练Muzero，则可以对该代码库进行少量修改即可使用。免责声明：此代码是早期研究代码。这意味着：可能存在无提示的错误。它可能无法在其他环境或其他超参数上可靠地工作。相当缺乏代码质量和文档，并且许多代码可能仍感觉“正在进行中”。培训和测试管道不是很先进。依存关系我们使用以下代码运行此代码： conda4.7.12 Python 3.7 Tensorflow 2.0.0 脾气暴躁的1.17.3 训练您的MuZero 此代码必须从muzero.py的main函数运行（不要忘记首先配置conda环境）。训练Cart

2021-08-16 14:33:08 19KB reinforcement-learning tensorflow world-models muzero

1

个人信息

热门下载

最新下载

其他资源