在本文中,我们提出了一种深度强化学习方法,以评估虚拟创建的自动驾驶场景的性能。 马尔可夫决策过程用于将车辆状态映射到动作。 折扣和奖励功能也包含在决策策略中。 为了处理导致强化学习的标准不稳定的高维度输入,我们使用了经验重播。 为了进一步降低相关性,我们使用迭代更新来定期更新Q值。 基于随机目标函数的亚当优化器与整流线性单元激活函数一起用作神经网络中的优化器,有助于进一步优化过程。 这款自动驾驶汽车不需要任何带有标签的训练数据即可学习人类的驾驶行为。 受现实情况启发,基于动作的奖励功能用于训练车辆。 在我们的方法中已经证明,经过多次迭代,虚拟制造的车辆会产生无碰撞运动,并执行与人类相同的驾驶行为。
2022-12-09 15:58:08 558KB Reinforcement learning; Markov decision
1
四轮驱动汽车构造及原理-全部概要.ppt
2022-12-09 14:19:32 3.33MB
四轮驱动汽车构造及原理-全部.ppt
2022-12-09 14:19:30 3.33MB
汽车漆面抛光教程.pptx
2022-12-09 14:19:29 3.11MB
第九章-汽车声像系统资料.ppt
2022-12-09 14:19:28 3.13MB
汽车使用性能与检测汽车制动性与操纵稳定性检测.ppt
2022-12-09 14:19:28 3.08MB
汽车配件订货管理.ppt
2022-12-09 14:19:24 3.19MB
汽车电器空调系统..ppt
2022-12-09 14:19:24 3.08MB
汽车标准件及基础标准.ppt
2022-12-09 14:19:20 3.32MB
名牌汽车介绍英文版.ppt
2022-12-09 14:19:11 3.21MB