鸢尾花数据集 约150条数据,每条样本4个属性,共3个类别
2021-04-02 14:02:53 4KB 强化学习
1
vegetables含3类蔬菜(黄瓜、生菜、莲藕),每类包含100张RGB图片
2021-04-02 14:02:52 9.49MB 强化学习
1
MNIST数据集 共包含70000张灰度图
2021-04-02 14:02:51 30.14MB 强化学习
1
猫狗数据集 包含25000张RGB图片,其中cat12500张,dog12500张
2021-04-02 14:02:50 544.35MB 强化学习 深度学习 机器学习
1
《21学会Oracle》个人学习笔记
2021-04-01 22:08:04 19KB oracle 强化学习
1
多智能体路径跟踪MATLAB 博文:https://blog.csdn.net/wangyifan123456zz/article/details/109633715
2021-04-01 18:52:16 595KB 强化学习
1
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者一评论家方法(1east square actor—critic algorithm,I。SAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将I。sAc算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Cacla(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor—critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能.
1
scott的强化学习导论
2021-03-31 12:02:53 5.59MB 强化学习
1
北京交通大学《工科化学》2016-2018年期中考试试卷(含答案)
2021-03-31 09:08:35 1.41MB 强化学习
北京交通大学《工科化学》课后思考题及习题答案
2021-03-31 09:08:35 4.9MB 强化学习