上传者: 38556394
|
上传时间: 2021-10-15 10:56:21
|
文件大小: 999KB
|
文件类型: -
Q-learning
Q-learning 是 value-based 的方法,在这种方法中我们不是要训练一个 policy,而是要训练一个critic网络。critic 并不直接采取行为,只是对现有的 actor ,评价它的好坏。
Value-Fuction
critic 给出了一个 value function ,代表在遇到游戏的某个 state 后,采取策略为的actor 一直玩到游戏结束,所能得到的 reward 之和。
(即critic)的输入是某个state,输出是一个scalar标量。上图游戏画面中左边的 很大,因为当前怪物比较多,防护罩也没被摧毁,从此时玩到游戏结束得