文中提出了一种新的层次结构,称为原语生成策略学习,以实现持续学习,更具体地说,采用变分自动编码器的通用方法从任务空间生成状态原语,然后设计单独的策略学习组件,依次学习不同任务的转矩控制命令。 适合对持续学习、机器人智能操作感兴趣的人们阅读,可以在我的博客里面召见对应的全文翻译。 文中对插销和开门任务进行了实验,并与FineTunning(微调)、弹性权重整合(EWC)、增量矩匹配(IMM)三种方法进行了对比。
1
探讨了灾难性遗忘,以及测量,是这方面的首选之作,很有必要看一下
2021-10-03 23:36:05 702KB 灾难性遗忘
1