最优控制课后习题答案,有详细的解答(注意:只有部分习题答案,非全部内容:2-11、3-8、4-4、5-5、5-8、5-9、5-10)。
2021-06-30 11:06:26 215KB 最优控制
1
彩虹 Rainbow:结合深度强化学习的改进 。 结果和预先训练的模型可以在找到。 DQN Double DQN 优先体验重播 决斗网络体系结构 多步骤退货 分布式RL 吵网 使用默认参数运行原始Rainbow: python main.py 可以使用以下选项运行数据有效的Rainbow (请注意,实际上,此处通过手动设置内存容量与最大时间步数相同来实现“无界”内存): python main.py --target-update 2000 \ --T-max 100000 \ --learn-star
1
用于多无人机对抗的多主体强化学习算法 这是“在战斗任务中进行多智能体强化学习的有效培训技术”的源代码,我们构建了源自多个无人驾驶飞机的战斗场景的多智能体对抗环境。 首先,我们考虑使用两种类型的MARL算法来解决这一对抗问题。 一种是从用于多代理设置(MADQN)的经典深度Q网络扩展而来的。 另一个是从最新的多主体强化方法,多主体深度确定性策略梯度(MADDPG)扩展而来。 我们比较了两种方法的初始对抗情况,发现MADDPG的性能优于MADQN。 然后以MADDPG为基准,提出了三种有效的训练技术,即场景转移训练,自学训练和规则耦合训练。 规则耦合红色特工vs随机移动蓝色特工 规则耦合的红色特工和蓝色特工通过自我比赛训练
2021-06-29 16:24:16 5.25MB 系统开源
1
自动股票交易的深度强化学习:整体策略 该存储库提供了代码 的Jupiter Notebook重新实现了这种整体策略。 抽象的 股票交易策略在投资中起着至关重要的作用。 但是,在复杂而动态的股票市场中设计一种有利可图的战略是具有挑战性的。 在本文中,我们提出了一种深度集成强化学习方案,该方案可以通过最大化投资回报来自动学习股票交易策略。 我们训练一种深度强化学习代理,并使用三种基于行为者批评的算法来获得整体交易策略:近距离策略优化(PPO),优势参与者批评者(A2C)和深度确定性策略梯度(DDPG)。 集成策略继承并集成了三种算法的最佳功能,从而可以稳健地适应不同的市场条件。 为了避免在具有连续动作空间的训练网络中消耗大量内存,我们采用按需加载方法来处理非常大的数据。 我们在30支具有足够流动性的道琼斯股票上测试了我们的算法。 评估了具有不同强化学习算法的交易代理商的表现,并与道琼斯工业平均
1
Q强化学习matlab源代码,注释详细,本人亲自运行测试。
2021-06-28 10:21:53 3KB Q-学习 matlab
1
软件定义网络中的DDoS仿真 该项目旨在为使用深度强化学习的DDoS缓解提供基本框架。 该网络使用Mininet(基于软件定义网络)实现。 入门 克隆存储库 git clone https://github.com/santhisenan/SDN_DDoS_Simulation.git 先决条件 安装依赖项 安装Mininet 安装OpenVSwitch 安装Ryu 安装Tensorflow 安装Keras 克隆ryu存储库并将ryu / ryu文件夹复制到SDN_DDoS_Simulation根目录 测验 根据测试目的修改simple_tree_top.py cd SDN_DDo
2021-06-28 08:24:20 878KB reinforcement-learning tensorflow sdn ryu
1
MATLAB强化学习代码包,用于解决多步决策模型(网格迷宫问题)的Sarsa算法。 编程与算法的详细说明可参看我的专栏:https://blog.csdn.net/weixin_43723517/category_9676083.html "I thought what I'd do was I'd pretend I was one of those deaf-mutes, or should I?"
2021-06-27 23:20:29 2KB matlab 强化学习 机器学习 Sarsa算法
1
MATLAB强化学习代码包,用于解决多步决策模型(网格迷宫问题)的Q-Learning算法。 编程与算法的详细说明可参看我的专栏:https://blog.csdn.net/weixin_43723517/category_9676083.html "I thought what I'd do was I'd pretend I was one of those deaf-mutes, or should I?"
2021-06-27 23:03:51 2KB matlab 强化学习 机器学习 Q-Learning
1
莫烦编程QL一维寻宝程序(Python改MATLAB实现)
2021-06-27 19:04:10 6KB 强化学习 matlab
1
参考 6.4 (Sarsa: On-Policy TD Control), Reinforcement learning: An Introduction, RS Sutton, AG Barto, MIT press 在这个演示中,强化学习技术 SARSA 解决了两个不同的迷宫。 State-Action-Reward-State-Action (SARSA) 是一种用于学习马尔可夫决策过程策略的算法,用于强化学习。 SARSA,动作价值函数的更新: Q(S{t}, A{t}) := Q(S{t}, A{t}) + α*[ R{t+1} + γ ∗ Q(S{t+1}, A{ t+1}) − Q(S{t}, A{t}) ] 学习率 (α) 学习率决定了新获取的信息在多大程度上覆盖旧信息。 因子为 0 将使代理不学习任何东西,而因子为 1 将使代理仅考虑最近的信息。 折扣系数 (γ)
2021-06-27 13:54:05 118KB matlab
1