上传者: rzss8
|
上传时间: 2021-12-29 13:02:26
|
文件大小: 668KB
|
文件类型: PDF
我们将深度Q-Learning成功背后的理念与持续的
动作域。我们提出了一种基于确定性模型的无模型算法
可以在连续动作空间上操作的策略梯度。使用
同样的学习算法,网络结构和超参数,我们的算法
稳健地解决20多个模拟物理任务,包括经典
如手推车摆动、灵巧操作、腿部运动等问题
还有开车。我们的算法能够找到性能具有竞争力的策略
与那些发现的规划算法完全访问的动态
域及其衍生物的。我们进一步证明,对于许多
任务算法可以“端到端”学习策略:直接从原始像素输入。