首先,对面向高速公路自动驾驶决策的深度强化学习算法进行改进。分别 针对当前常用于自动驾驶决策的两种深度强化学习算法深度确定性策略梯度 (Deep Deterministic Policy Gradient,DDPG)和近端策略优化(Proximal Policy Optimization,PPO)进行改进,以使其更能满足高速公路自动驾驶场景 对于决策模块的要求。对于DDPG算法,本文对其进行针对性改进提出了基 于双评论家及优先回放机制的深度确定性策略梯度算法(Double Critic and Priority Experience Replay Deep Deterministic Policy Gradient,DCPER-DDPG)。 针对Q值过估计导致的驾驶策略效果下降问题,采用了双评论家网络进行优 化。针对演员网络更新时产生的时间差分误差导致算法模型不精准采用延迟更 新方法降低这一影响。针对DDPG算法中随机经验回放导致的采样样本效果 不符合预期和训练速度慢导致的算力和资源损耗,本文采用优先经验回放机制 对其进行改善。
1