FlappyBirdRL 使用强化学习的Flappy Bird hack 您可以在此处查看游戏和算法的摘要! 自己运行代码 代码并解压缩 打开终端并导航到该文件夹 cd ~/Downloads/FlappyBirdRL-master 使用python启动一个简单的服务器 python -m SimpleHTTPServer 8000 更多细节。 在浏览器中,导航到本地服务器的地址(默认为 )。 故障排除 您启动服务器了吗? 如果您刚刚打开index.html页面,则控制台中可能有关于原始请求的错误。 右键单击屏幕上的任意位置,单击“检查”,然后查看控制台。 是否存在以下错误? 示例 Failed to load file:///Users/.../res/flappyAtlas/atlas.txt: Cross origin requests are only supported for protocol schemes: http, data, chrome, chrome-extension, https." :该页面试图从磁盘加载文件,但是大多数现代浏览器将其阻
1
强化-深度学习-连续控制
2021-12-30 23:21:08 3.95MB
1
Deep Reinforcement Learning深度强化学习Deep Reinforcement Learning, 2017
2021-12-30 14:55:59 3.41MB 深度强化学习
1
最近因为与深度学习结合,解决海量数据的泛化问题,取得了让⼈印象深刻 的成果。包括 DeepMind 的⾃动学习玩 ATARI 游戏,以及 AlphaGo 在围棋⼤赛中 战胜世界冠军等,其背后的强⼤武器就是深度强化学习技术。相对于 DeepMind 和学术界看重强化学习的前沿研究,阿⾥巴巴则将重点放在推动强化学习技术 输出及商业应⽤。在阿⾥移动电商平台中,⼈机交互的便捷,碎⽚化使⽤的普 遍性,页⾯切换的串⾏化,⽤户轨迹的可跟踪性等都要求我们的系统能够对变 幻莫测的⽤户⾏为以及瞬息万变的外部环境进⾏完整地建模。平台作为信息的 载体,需要在与消费者的互动过程中,根据对消费者(环境)的理解,及时调整 提供信息(商品、客服机器⼈的回答、路径选择等)的策略,从⽽最⼤化过程累 积收益(消费者在平台上的使⽤体验)。基于监督学习⽅式的信息提供⼿段,缺 少有效的探索能⼒,系统倾向于给消费者推送曾经发⽣过⾏为的信息单元(商 品、店铺或问题答案)。⽽强化学习作为⼀种有效的基于⽤户与系统交互过程建 模和最⼤化过程累积收益的学习⽅法,在⼀些阿⾥具体的业务场景中进⾏了很 好的实践并得到⼤规模应⽤。
2021-12-29 15:12:14 19.72MB 强化学习 增强学习 阿里巴巴
1
我们将深度Q-Learning成功背后的理念与持续的 动作域。我们提出了一种基于确定性模型的无模型算法 可以在连续动作空间上操作的策略梯度。使用 同样的学习算法,网络结构和超参数,我们的算法 稳健地解决20多个模拟物理任务,包括经典 如手推车摆动、灵巧操作、腿部运动等问题 还有开车。我们的算法能够找到性能具有竞争力的策略 与那些发现的规划算法完全访问的动态 域及其衍生物的。我们进一步证明,对于许多 任务算法可以“端到端”学习策略:直接从原始像素输入。
2021-12-29 13:02:26 668KB 深度学习 强化学习 机器人 运动控制
1
A practical guide to mastering reinforcement learning algorithms using Keras Key Features: Build projects across robotics, gaming, and finance fields, putting reinforcement learning (RL) into action; Get to grips with Keras and practice on real-world unstructured datasets; Uncover advanced deep learning algorithms such as Monte Carlo, Markov Decision, and Q-learning.
2021-12-26 15:48:39 17.95MB Keras 强化学习 RL Reinforcement
1
Unity ML-Agents工具包 ()() Unity Machine Learning Agents工具包(ML-Agents)是一个开放源代码项目,使游戏和模拟能够用作训练智能代理的环境。 我们提供最新算法的实现(基于PyTorch),使游戏开发人员和业余爱好者可以轻松地训练2D,3D和VR / AR游戏的智能代理。 研究人员还可以使用提供的易于使用的Python API通过强化学习,模仿学习,神经进化或任何其他方法来训练Agent。 这些训练有素的代理可以用于多种目的,包括控制NPC行为(在多种设置下,例如多代理和对抗),自动测试游戏版本并评估预发布的不同游戏设计决策。 ML-A
2021-12-24 20:03:00 147.25MB reinforcement-learning deep-learning unity unity3d
1
多臂赌博机介绍 强化学习入门 Reinforcement Learning
2021-12-23 10:20:44 1.83MB 多臂赌博机 强化学习 RL Reinforcement
1
回购我们的硕士论文 阅读每个文件夹中的readme.md,以获取对论文不同部分的描述。
2021-12-22 16:52:19 3.55MB Python
1
单糖 用Python实现的Type-1糖尿病模拟器,用于强化学习 该模拟器是FDA批准的的python实现,仅用于研究目的。 该模拟器包括30名虚拟患者,10名青少年,10名成人,10名儿童。 引用方式:谢金玉。 Simglucose v0.2.1(2018)[在线]。 可用: : 。 访问日期:年月日。 注意:simglucose仅支持python3。 动画片 CVGA绘图 BG跟踪图 风险指数统计 主要特点 仿真环境遵循和 API。 它在每个步骤都返回观察,奖励,完成,信息,这意味着模拟器已“加强学习”。 支持定制的奖励功能。 奖励功能是最近一小时血糖测量值的功能。 默认情况下,每个步骤的回报是risk[t-1] - risk[t] 。 risk[t]是定义的时间t的风险指数。 支持并行计算。 该模拟器使用并行模拟多位患者(您可以通过设置parallel=False来自
1