流行的无模型强化学习算法 PyTorch和Tensorflow 2.0在Openai体育馆环境和自行实现的Reacher环境中均实现了最新的无模型强化学习算法。 算法包括软参与者关键(SAC),深度确定性策略梯度(DDPG),双延迟DDPG(TD3),参与者关键(AC / A2C),近端策略优化(PPO),QT-Opt(包括交叉熵( CE)方法) , PointNet ,运输商,循环策略梯度,软决策树等。 请注意,此存储库更多是我在研究和实施期间实施和测试的个人算法集合,而不是正式的开放源代码库/软件包以供使用。 但是,我认为与他人分享它可能会有所帮助,并且我希望对实现进行有益的讨论。 但是我没有花太多时间在清理或构建代码上。 您可能会注意到,每种算法可能都有几种实现方式,在此我特意展示所有这些方式,供您参考和比较。 此外,此存储库仅包含PyTorch实施。 对于RL算法的官方库,
1

为了求解有限时域最优控制问题, 自适应动态规划(ADP) 算法要求受控系统能一步控制到零. 针对不能一步控制到零的非线性系统, 提出一种改进的ADP 算法, 其初始代价函数由任意的有限时间容许序列构造. 推导了算法的迭代过程并证明了算法的收敛性. 当考虑评价网络的近似误差并满足假设条件时, 迭代代价函数将收敛到最优代价函数的有界邻域. 仿真例子验证了所提出方法的有效性.

1
前30列为特征数据,最后列为标签数据,
2023-03-10 11:23:43 89KB 神经网络 LSTM
1
主要为大家详细介绍了Android微信自动抢红包插件优化和实现,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
1
文字版,并非扫描版。 仅提供参看,若觉得有用请购买正版
2023-03-09 20:30:17 3.12MB Oracle
1
1引言据美国疾病控制预防中心的数据,现在美国 1/7 的成年人患有糖尿病。到2050 年,这个比例将会快速增长至高达 1/3。我们在 UCL 机器学习数据库里一
2023-03-09 17:57:07 502KB 支持向量机
1
matlab求导代码MultilevelCoordinateSearch 这是(MCS)的实现,这是Waltraud Huyer和Arnold Neumaier的算法,用于在可能有界的域上进行全局最小化。 在中,MCS在非商业算法中得分最高。 该实现是原始文档的“新鲜”实现,而不是基于所提供的Matlab代码。 状态:正在进行中。 直到完成为止(如果有的话),请检查我的。
2023-03-09 17:12:38 11KB 系统开源
1
个人整合资源长鼻浣熊优化算法coati optimization algorithm源代码,更多算法可进入空间查看
1
使用 CSO 的 ANN 权重优化比梯度下降方法具有更好的达到全局最小值的能力。 该软件包旨在预测特定提前期的海面温度异常 (SSTA) 时间序列。 比较了使用 CSO 和梯度下降法预测 SSTA 的结果,发现 CSO 使均方根误差提高了 20% 到 40%。
2023-03-09 11:23:00 8KB matlab
1
基于元胞自动机的创新扩散优化方法研究与分析
2023-03-09 09:22:13 1.38MB java
1