参考 6.4 (Sarsa: On-Policy TD Control), Reinforcement learning: An Introduction, RS Sutton, AG Barto, MIT press 在这个演示中,强化学习技术 SARSA 解决了两个不同的迷宫。 State-Action-Reward-State-Action (SARSA) 是一种用于学习马尔可夫决策过程策略的算法,用于强化学习。 SARSA,动作价值函数的更新: Q(S{t}, A{t}) := Q(S{t}, A{t}) + α*[ R{t+1} + γ ∗ Q(S{t+1}, A{ t+1}) − Q(S{t}, A{t}) ] 学习率 (α) 学习率决定了新获取的信息在多大程度上覆盖旧信息。 因子为 0 将使代理不学习任何东西,而因子为 1 将使代理仅考虑最近的信息。 折扣系数 (γ)
2021-06-27 13:54:05 118KB matlab
1
《强化学习导论》摘录之强化学习与有监督学习、监督学习的区别; Reinforcement Learning: An Introduction; The differences between reinforcement learning and supervised learning, unsupervised learning.
1
基于模型的强化学习(MBRL)最近获得了极大的兴趣,因为它具有潜在的样本效率和合并非策略数据的能力。然而,使用富函数逼近器设计稳定、高效的MBRL算法仍然具有挑战性。
2021-06-26 11:02:26 3.96MB RL
1
针对部分可观测马氏决策过程(POMDP) 中, 由于感知混淆现象的存在, 利用Sarsa 等算法得到的无记忆策 略可能发生振荡的现象, 研究了一种基于记忆的强化学习算法——CPnSarsa (K) 学习算法来解决该问题. 它通过重新 定义状态,A gent 结合观测历史来识别混淆状态. 将CPnSarsa (K) 算法应用到一些典型的POMDP, 最后得到的是最 优或近似最优策略. 与以往算法相比, 该算法的收敛速度有了很大提高.
1
小车上山实验是强化学习经典案例,与网上大多数资源不同,该资源提供小车上山完整python代码,并以图形化的形式实现强化学习功能,值得一学。
2021-06-24 21:12:16 3KB 强化学习 小车上山 python
1
近年来,人工智能技术已被应用于无线通信领域,以解决传统无线通信技术面对信息爆炸和万物互联等新发展趋势所遇到的瓶颈问题。首先介绍深度学习、深度强化学习和联邦学习三类具有代表性的人工智能技术;然后通过对这三类技术在无线通信中的无线传输、频谱管理、资源配置、网络接入、网络及系统优化5个方面的应用进行综述,分析和总结它们在解决无线通信问题时的原理、适用性、设计方法和优缺点;最后围绕存在的局限性指出智能无线通信技术的未来发展趋势和研究方向,期望为无线通信领域的后续研究提供帮助和参考。
1
python实现强化学习Q-learning走迷宫例子,包含3个文件.详细描述可见:https://blog.csdn.net/Eric_Fisher/article/details/90664819
2021-06-21 20:58:59 3KB 强化学习 Q-learning 走迷宫例子
1
ddpg DDPG(深度确定性策略梯度)在Gym-torcs上的实现。 与张量流。 ddpg论文: ://arxiv.org/pdf/1509.02971v2.pdf 作者:肯尼斯·于 安装依赖项: 张量流r1.4 gym_torcs: : 如何运行: 训练方式: python3 gym_torcs_train_low_dim.py 评估模式: python3 gym_torcs_eval_low_dim.py
2021-06-21 11:48:03 30KB 附件源码 文章源码
1
基于深度强化学习的动态计算卸载,程百川,刘丹谱,移动边缘计算在移动网络边缘提供计算资源。为了减少执行时延,计算密集型任务可以从用户设备卸载到移动边缘服务器。当考虑到任务
2021-06-21 09:50:46 320KB 无线通信
1
Q Learning强化学习自动交易机器人
2021-06-21 09:19:50 223KB Python开发-机器学习
1