这个包提供了Deepmind 的 AlphaZero 算法的通用、简单和快速的实现:
核心算法只有 2000 行纯的、可破解的 Julia 代码。
通用界面可以轻松添加对新游戏或新学习框架的支持。
这种实现比用 Python 编写的竞争替代方案快一到两个数量级,可以在带有 GPU 的标准台式计算机上解决非平凡的游戏。
可以像在单台计算机上一样轻松地在一组机器上训练相同的代理 ,而无需修改一行代码。
我为什么要关心 AlphaZero?
除了广为人知的在国际象棋和围棋等游戏中达到超人水平的成功之外,DeepMind 的 AlphaZero 算法还展示了一种更通用的方法,将学习和搜索相结合,以有效地探索大型组合空间。我们相信这种方法可以在许多不同的研究领域有令人兴奋的应用。
我为什么要关心这个实现?
由于 AlphaZero 需要大量资源,因此成功的开源实现(例如Leela Zero)是用低级语言(例如 C++)编写的,并针对高度分布式计算环境进行了优化。这使得学生、研究人员和黑客很难接触到它们。
该项目的动机是提供 AlphaZero 的实现,该实现足够简单,可以广泛访问,同时也
2022-06-10 10:03:29
6.63MB
算法