考虑系统随机输入噪声与随机量测噪声的线性二次型的最优控制叫做线性二次高斯(Gauss)最优控制。这是一种输出反馈控制,对解决线性二次型最优控制问题更具有实用性
2021-12-13 09:46:41 380KB 线性二次型高斯最优控制的设计
1
深度强化学习指南(与Keras和OpenAi体育馆一起使用) 使用Keras和OpenAi体育馆进行深度强化学习策略梯度方法的分步教程。 在这个简短的项目中,我们将使用强化学习算法(策略梯度方法-REINFORCE)训练神经网络玩Pong游戏。 如果要运行它,则只需克隆存储库,然后打开钢筋_learning_pong_keras_policy_gradients.ipynb ,然后阅读并运行笔记本 我们训练了一个简单的200个隐藏的神经元网络和一个卷积模型。 简单网络的示例播放: 简单网络玩游戏的视频( ): 卷积网络玩游戏的视频( ): 考虑到有限的时间和出于学习目的,我并不是要寻找一个受过良好训练的代理,但我希望这个项目可以帮助人们熟悉rl算法和keras的基本过程。 上面的视频花了3天时间让代理在慢速的计算机上学习。 为了获得生产结果,需要更多的培训和调整,这不是我
2021-12-12 21:46:08 9.8MB tutorial reinforcement-learning ai guide
1
强化学习——OpenAI Gym——环境理解和显示 本文以CartPole为例。 新建Python文件,输入 import gym env = gym.make("CartPole-v0") # 定义使用gym库中的环境:CartPole env = env.unwrapped # 打开包装 # 以上两句可换成 env = gym.make('CartPole-v0').unwrapped print(env.action_space) # 动作空间,输出的内容看不懂 print(en
2021-12-12 17:25:02 39KB AI 化学 学习
1
2017-2018年机器学习顶会优质论文集合 包含ACL EMNLP AAAI等优质会议期刊上的推荐论文集 涉及自然语言处理、推荐系统、强化学习等领域
2021-12-12 16:48:53 45.04MB NLP 机器学习 推荐系统 强化学习
1
RL_in_Finance 强化学习在量化金融上的应用
2021-12-12 11:50:14 1.58MB JupyterNotebook
1
Q-learning 算法案例,在一个8×8表格内从初始状态,通过算法找到一条距离设定目标的最短路径。本案例通过C语言实现。(强化学习与深度学习通过C语言模拟书中的案例)
2021-12-12 10:47:27 6KB Q-learning c语言 强化学习
1
从最基本开始讲的线性最优控制,通俗易懂,自己看了之后感觉不错,给大家分享一下!
2021-12-11 09:53:39 1.24MB 线性二次型 最优控制
1
动态规划与最优控制模型是数学建模中常用的工具
2021-12-10 20:34:22 102KB 动态规划与最优控制模型
1
文字世界 基于文本的游戏生成器和可扩展的沙箱学习环境,用于培训和测试强化学习(RL)代理。 另请访问以获取有关TextWorld及其创建者的更多信息。 对TextWorld有疑问或反馈吗? 将它们发送到或使用上面列出的Gitter频道。 安装 TextWorld需要Python 3,并且目前仅支持Linux和macOS系统。 对于Windows用户,可以将docker用作解决方法(请参阅下面的Docker部分)。 要求 TextWorld的本地组件需要一些系统库。 在基于Debian / Ubuntu的系统上,可以使用以下命令安装它们 sudo apt update && sudo apt install build-essential libffi-dev python3-dev curl git 在macOS上, brew install libffi curl git 注意:我们
1
基于排队模型和强化学习的动态云任务调度算法,赵翌欢,丁丁,作为云计算的核心问题之一,如何有效地管理和调度云计算资源是一个极具挑战性的研究课题。在异构云环境中,为了提高任务调度效率
2021-12-10 16:56:33 444KB 云计算
1