搜索【强化学习源码】的结果

深度强化学习源码python

源码基于numpy和pytorch，包含各类传统的强化学习算法，可以用于入门学习和非专业领域快速应用。

2022-10-07 21:05:40 235.2MB 强化学习 深度学习 入门

1

gkp-rl:使用GKP代码进行量子错误校正的强化学习-源码

gkp-rl 使用GKP代码进行量子错误校正的强化学习。

2022-03-11 09:02:20 1.38MB JupyterNotebook

1

qtrader:资产组合管理的强化学习-源码

qtrader 资产组合管理的强化学习为什么要进行强化学习？学习最佳行动，而不是为市场建模。由于其在线培训，因此可以适应市场的暂时变化。优化长期（累积）回报，而不是瞬时收益。设置由于typing s，因此与Python 3兼容苹果系统 source scripts/setup.sh 文献资料： qtrader简介：现有方法的动机，利弊：相关资源清单：硕士论文：15分钟的项目演讲

2022-03-03 00:26:30 18.03MB python reinforcement-learning q-learning recurrent-neural-networks

1

从头开始训练机器人手臂：构建环境并从头开始训练机器人手臂（强化学习）-源码

从头开始训练机器人手臂：建立培训框架：学习从头开始构建环境：完成基本的环境脚本，看看手臂如何运动：插入强化学习方法并尝试对其进行培训：优化和调试：制定目标依存关系 Python 张量流 g 麻木此强化学习练习代码的中文教程为。您可以在上查看更多教程，或在了解有关我的更多信息。

2022-01-19 16:05:24 59KB python machine-learning tutorial reinforcement-learning

1

FCMADDPG_编队控制学习_MADDPG_编队控制_编队_深度强化学习_源码

基于深度强化学习的编队控制使用MADDPG算法

2022-01-18 14:59:03 11KB 编队控制学习 MADDPG 编队控制 编队

1

多主体强化学习-源码

Udacity深度强化学习纳米学位-项目3：合作与竞争介绍对于这个Udacity项目，我使用了一个DDPG代理来解决多代理协作环境。在这种环境下，两名特工控制球拍在球网上弹跳球。如果探员将球击中网，则得到+0.1的奖励。如果探员让一个球击中地面或越界将球击中，则其收益为-0.01。因此，每个特工的目标是保持比赛中的球权。观察空间由8个变量组成，分别对应于球和球拍的位置和速度。每个代理都会收到自己的本地观察结果。有两个连续的动作可用，分别对应于朝向（或远离）网络的运动和跳跃。该任务是情节性的，并且为了解决环境，您的特工必须获得+0.5的平均分数（在两个特工均取得最大分值之后，连续100次以上）。具体来说，在每个情节之后，我们将汇总每个代理商的奖励（不打折），以获得每个代理商的得分。这将产生2个（可能不同）的分数。然后，我们取这两个分数中的最大值。这为每

2022-01-13 16:41:31 1.06MB JupyterNotebook

1

simglucose:用Python实现的Type-1糖尿病模拟器，用于强化学习-源码

单糖用Python实现的Type-1糖尿病模拟器，用于强化学习该模拟器是FDA批准的的python实现，仅用于研究目的。该模拟器包括30名虚拟患者，10名青少年，10名成人，10名儿童。引用方式：谢金玉。 Simglucose v0.2.1（2018）[在线]。可用： : 。访问日期：年月日。注意：simglucose仅支持python3。动画片 CVGA绘图 BG跟踪图风险指数统计主要特点仿真环境遵循和 API。它在每个步骤都返回观察，奖励，完成，信息，这意味着模拟器已“加强学习”。支持定制的奖励功能。奖励功能是最近一小时血糖测量值的功能。默认情况下，每个步骤的回报是risk[t-1] - risk[t] 。 risk[t]是定义的时间t的风险指数。支持并行计算。该模拟器使用并行模拟多位患者（您可以通过设置parallel=False来自

2021-12-22 15:05:31 1MB python simulator reinforcement-learning simulation

1

Reinforcement-Learning-for-Real-time-Pricing-and-Scheduling-Control-in-EV-Charging-Stations:电动汽车充电站实时定价和调度控制的强化学习-源码

2020年11月22日更新各位， 2020-11-17：我注意到人们正在等待代码。正如我在某些电子邮件中所说的那样，论文终于在我还是腾讯的时候完成了。 2020年5月，我从腾讯离开，加入了深圳大学。如您所知，对于一家商业公司，我将所有材料留在腾讯内部。非常抱歉，无法再提供原始的MATLAB代码。我将尝试最近在Pytorch中重新实现它。谢谢。 2020-11-22：上传了pytorch实施。再次抱歉，我无法提供带有SARSA的原始MATLAB实现。当我们小组致力于A3C框架的研究工作时，我使用A3C框架实施EV充电环境和功能状态，以提高实施效率。结果，尽管结果与原始结果略有不同，但快速收敛仍然很重要。就个人而言，我们的主要贡献是问题的提出和解决，可以在env（）函数中找到。因此，让我在这里停止，再次感谢您的关注。引用这项工作 S. Wang，S。Bi和YJ Zh

2021-12-21 13:13:43 3.3MB Python

1

Ada-IRL:Adaboost逆向强化学习-源码

Ada-IRL Adaboost逆向强化学习一种使用类似于Adaboost的I-Rl算法的方法。 RL 开始进行强化学习的测试演示。 python rl_test.py 内部收益率开始进行逆向强化学习的测试演示。 python irl_test.py

2021-12-06 17:11:17 8KB inverse-reinforcement-learning adaboost-learning Python

1

强化学习源码（DP, MC, TD, DQN, PG, AC, A3C, DDPG）.zip

包括DP, MC, TD, TD-lambda, DQN, PG, AC, A3C, DDPG, Dyna_Q, Bandit, AlphaGoBangZero以及部分仿真游戏源码

2021-10-14 16:17:05 32.58MB 强化学习

1

个人信息

热门下载

最新下载

其他资源