用tensorflow实现的pygame模拟自动驾驶,刚开始可能不收敛,要训练大概几十万次后才收敛。(PS:本人代做网站毕业设计,公司网站)。本代码引用了sentdex的小车游戏。非常感谢。如有侵权请联系删除。训练速度完全取决于你的电脑性能。本人已经训练了几十万次了
2021-04-11 21:56:36 59.53MB 强化学习
1
悬崖寻路为强化学习的经典案例,但网上关于这方面的代码几乎没有,该资源结合Gym库中的悬崖寻路问题进行了解答,并基于Bellman最优方程求解出最优策略,完整python代码,只此一家。
2021-04-11 18:25:52 3KB 强化学习 悬崖寻路 python
1
:chart_increasing:如何用深度强化学习自动炒股 :light_bulb:初衷 最近发生的事故,受到新冠疫情的影响,股市接连下降,作为一棵小白菜兼小韭菜,竟然产生了抄底的大胆想法,拿出仅存的一点私房钱梭哈了一把。 第二天,暴跌,俺加仓 第三天,又跌,俺加仓 第三天,又跌,俺又加仓... 一番错误操作后,结果严重不堪重负,第一次买股票就被股市一段暴打,受到了媳妇无情的嘲讽。痛定思痛,俺决定换一个思路:如何用深度强化学习来自动模拟炒股?实验验证一下能否获得收益。 :open_book:监督学习与强化学习的区别 监督学习(如LSTM)可以根据各种历史数据来预测未来的股票的价格,判断股票是涨还是跌,帮助人做决策。 而强化学习是机器学习的另一个分支,在决策的时候采取适当的行动(Action)使最后的奖励最大化。与监督学习预测未来的数值不同,强化学习根据输入的状态(如当日开盘价,收盘价等),输出系列动作(例如:买进,持有,卖出),从而最后的收益最大化,实现自
2021-04-11 14:03:47 4.14MB JupyterNotebook
1
论文Finding key players in complex networks through deep reinforcement learning的软件包
2021-04-10 16:06:37 1.98MB 复杂网络 python 关键节点 强化学习
1
在莫凡的虚拟环境基础上进行修改 SAC改动很少 在windows系统 cuda10.1 tensorflow2.2 tensorflow-probability 0.6.0 tensorlayer >=2.0.0 效果还行
2021-04-09 18:59:33 9KB SAC 强化学习 自动驾驶
1
Connecting Generative Adversarial Network and Actor-Critic Methods.pdf
2021-04-09 17:12:20 125KB 强化学习 Actor-Critic GAN
1
A Novel DDPG Method with Prioritized Experience__Replay.rar
2021-04-08 21:02:40 17.39MB 强化学习 DDPG 经验回放
1
POMDP是增强学习的基础,很少见的讲解POMDP的讲义,详细并且清晰,是学习POMDP非常好的参考资料,深入浅出,值得拥有。
2021-04-08 10:37:22 2.18MB 马尔科夫决策过程 强化学习
1
四悬停点V1.0.txt
2021-04-08 09:15:29 4KB 强化学习 Q-Learning
1
提出了一种优化任何给定数学函数的新颖方法,称为“强化学习算法”(MORELA)。 尽管强化学习(RL)最初是为解决马尔可夫决策问题而开发的,但可以与某些改进一起使用以优化数学函数。 在MORELA的核心处,围绕在可行解决方案空间中找到的最佳解决方案生成一个子环境,并将其与原始环境进行比较。 因此,MORELA使得发现数学函数的全局最优成为可能,因为它是在前一个学习情节中使用子环境寻求的最佳解决方案的基础上寻求的。 已使用从文献中描述的其他优化方法获得的结果测试了MORELA的性能。 结果表明,就采用的鲁棒性衡量标准而言,MORELA可以提高RL的性能,并且比许多与之相比的优化方法表现更好。
2021-04-07 15:12:01 1.63MB 强化学习 数学功能 全局最优 子环境
1