用java写的一个强化学习程序,猫通过学习学会了抓老鼠
2021-10-22 09:23:06 62KB 强化学习
1
南京大学俞扬副教授在第二期《人工智能前沿讲习班》的报告完整PPT,内容包括强化学习的概念、主要算法类型和应用等,值得反复精读,目录如下: 一、介绍(Introduction) 二、马尔可夫决策过程(Markov Decision Process) 三、从马尔可夫决策过程到强化学习(from Markov Decision Process to Reinforce Learning) 四、值函数估计(Value function approximation) 五、策略搜索(Policy Search) 六、游戏中的强化学习(Reinforcement Learning in Games) 七、强化学习总结 八、强化学习资源推荐 第一,强化学习到底是什么? 第二,强化学习有哪几类算法?这几类算法的思路是什么? 第三,强化学习能用在什么地方?应用时会遇到什么限制?
2021-10-21 17:39:31 23.31MB 人工智能 机器学习 强化学习 深度学习
1
最新的技术进步提高了交通运输的质量。新的数据驱动方法为所有基于控制的系统(如交通、机器人、物联网和电力系统)带来了新的研究方向。
1
强化学习解决方案第二版(Richard S. Sutton的,Andrew G. Barto) 第12章已更新。 有关详细信息,请参见下面的日志。 那些正在使用它来完成您的作业的学生,​​请停止该作业。 本手册旨在为数百万没有官方指南或适当学习环境的自学人士提供服务。 而且,当然,作为个人项目,它会出现错误。 (如果发现任何问题,则有助于解决问题)。 欢迎来到这个项目。 这是一个很小的项目,我们还没有做太多的编码,但是我们一起合作完成了著名的RL书籍《强化学习》(萨顿的介绍)中的一些棘手的练习。 您可能知道这本书,尤其是去年出版的第二版,没有正式的解决方案手册。 如果将答案发送到作者留下的电子邮件地址,则将返回不完整且较旧的伪造答题纸。 那么,为什么我们不写我们自己的呢? 大多数问题都是数学证明,可以很好地学习理论主干,但其中一些是颇具挑战性的编码问题。 两者都将逐渐更新,但数学将排在第
1
共视控制 Covid Control是一种免费且可评估的机器学习模型,可预测Covid19日案例(7天移动平均值)的未来数量。 使用LSTM和强化学习对非药物干预(NPI)进行量化。 利用机器学习挽救人类史无前例的全球健康能效新型冠状病毒(COVID-19)的生命,以帮助拉平曲线。 开发数据驱动的AI系统以预测感染率并制定区域政府,社区和组织可以实施的干预计划(IP)。 当国家重新开放经济和社会时,干预计划可以减少感染病例,最大程度地减少负面经济影响,并带来更好的结果。 动机:Covid19大流行React 3Blue1Brown的“指数增长和流行病” Covid19视频: 目标是开发一种机器学习模型,以预测未来全球Covid案例的数量: Part1预测器:LSTM长短期记忆预测器模型 使用LSTM长短期记忆以最高的准确性估算未来每天发生的COVID-19病例数,并开发了一种预测器模型
2021-10-18 21:13:45 24.65MB medical lstm lstm-model modelling
1
用模糊强化学习,需预先设定模糊规则,本代码描述了Cartpole学习的强化学习过程,有兴趣可以学习一下
2021-10-18 20:00:59 8KB 模糊 强化学习 fuzzy Qlearning
1
该AI程序实现了多个AI代理来播放Flappy Bird。该计划应用强化学习技术,包括SARSA,Q学习和函数逼近。经过10,000次迭代的训练后,特工经常获得1400+的高分,最高游戏得分2069 该项目需要以下框架: Pygame:https://www.pygame.org PyGame学习环境:https://github.com/ntasfi/PyGame-Learning-Environment OpenAI体育馆:https ://gym.openai.com Gy-ple:https : //github.com/lusob/gym-ple PyTorch:https://pytorch.org OpenCV:https://opencv.org
2021-10-16 14:43:06 23KB AI程序
1
这是论文《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》的pytorch复现,直接使用其开源环境Multi-Agent Particle Environment,运行main.py即可进行运行程序
电信公司评分预测、房价预测、爬虫、共享单车
2021-10-14 21:18:59 71.36MB 强化学习 神经网络 深度学习
1
包括DP, MC, TD, TD-lambda, DQN, PG, AC, A3C, DDPG, Dyna_Q, Bandit, AlphaGoBangZero以及部分仿真游戏源码
2021-10-14 16:17:05 32.58MB 强化学习
1