强化学习 案例 悬崖寻路 python实现
2021-04-22 11:01:19 1KB 强化学习 python 悬崖寻路
1
完整实现A2C算法,包括实现要点、模型构建、虚拟环境交互、模型训练、信息监控等,并亲测在google colab中运行
2021-04-21 20:58:57 5.39MB PyTorch 深度强化学习 A2C 深度学习
1
gym动态障碍码源
2021-04-21 18:02:29 41KB gym 强化学习
1
gym 6*6环境下动态避障寻宝
2021-04-21 18:02:20 15KB gym 强化学习
1
采用DQN算法使导弹突破拦截弹的防守,拦截采用比例导引,强化学习算法判断何时轨控发动机开机,且开机时间为1秒
2021-04-21 10:08:30 8KB 导弹突防 强化学习 比例导引
1
facebook 在机器的 VizDoom 比赛中得到了第一名,其中涉及到了强化学习在sparse reward的环境中使用Reward Shaping和Curriculum Learning的技巧。
2021-04-19 19:05:57 1.16MB 强化学习 RewardShaping CurriculumLearn VizDoom
1
深度逆向强化学习是机器学习领域的一个新的研究热点,它针对深度强化学习的回报函数难以获取问题,提出了通过专家示例轨迹重构回报函数的方法。首先介绍了3类深度强化学习方法的经典算法;接着阐述了经典的逆向强化学习算法,包括基于学徒学习、最大边际规划、结构化分类和概率模型形式化的方法;然后对深度逆向强化学习的一些前沿方向进行了综述,包括基于最大边际法的深度逆向强化学习、基于深度Q网络的深度逆向强化学习和基于最大熵模型的深度逆向强化学习和示例轨迹非专家情况下的逆向强化学习方法等。最后总结了深度逆向强化学习在算法、理论和应用方面存在的问题和发展方向。
2021-04-19 17:46:38 711KB 论文研究
1
5G 的发展带来了终端设备爆炸式增长的现象,使得频谱资源紧缺的问题越加严峻,认知无线网( cognitive radio, CR)的提出,被认为是提高频谱利用率的有效途径。 认知无线网,融合了当代无线电通信技术、计算机技术、微电子学技 术、软件无线电技术和现代信号处理技术等多学科之长,通过感知周围的电磁环境、学习及理解等方式,自主为用户寻找 到当前空闲的频谱,完成信息交互过程。 针对频谱资源紧张的现状,为改善频谱分配,首先介绍了有关认知无线网络的概 念及其特点,重点介绍了机器学习中遗传算法,强化学习和隐马尔可夫模型在认知无线网络中的应用,并展望了其在认知 无线网络中的发展前景。 机器学习算法的引入,实现了高效的频谱资源管理,有效地解决了无线频谱资源紧张的问题。
2021-04-19 16:59:36 1.16MB 无线认知网络 强化学习
1
MATLAB强化学习代码,用于解决多臂赌机的egreedy策略。 “I thought what I'd do was I'd pretend I was one of those deaf-mutes, or should I?”
2021-04-19 16:25:56 969B MATLAB 强化学习 多臂赌机 策略
1