搜索【reinforcement-learning】的结果

轮轨元素-an introduction to deep reinforcement learning

图 4.58 轮轨元素图 4.59 警告信息在点击 OK 之后，你将会看到上面的警告信息，因此说明软件已经确定了这个位置， SIMPACK 开始装配系统，并且退出铰接的定义窗口。现在点击定义轨道，简单使用缺省值，然后点击 OK，在轨道窗口创建一个 100m 的直线轨道。创建后的模型如下：

2025-05-14 13:32:09 18.28MB simpack

iw-transfer-rl:论文《强化学习中样本的重要性加权转移》（ICML 2018）的代码

强化学习中样本的重要性加权转移此存储库包含我们的强化学习中的重要性加权样本转移》的代码，该代码已在ICML 2018上接受。我们提供了一个小库，用于RL中的样本转移（名为TRLIB），包括重要性加权拟合Q的实现-迭代（IWFQI）算法[1]以及有关如何重现本文提出的实验的说明。抽象的我们考虑了从一组源任务中收集的强化学习（RL）中经验样本（即元组）的转移，以改善给定目标任务中的学习过程。大多数相关方法都专注于选择最相关的源样本来解决目标任务，但随后使用所有已转移的样本，而无需再考虑任务模型之间的差异。在本文中，我们提出了一种基于模型的技术，该技术可以自动估计每个源样本的相关性（重要性权重）以解决目标任务。在所提出的方法中，所有样本都通过批处理RL算法转移并用于解决目标任务，但它们对学习过程的贡献与它们的重要性权重成正比。通过扩展监督学习文献中提供的重要性加

2025-04-02 21:44:35 4.92MB machine-learning reinforcement-learning transfer-learning Python

1

Multi-Agent Reinforcement Learning.pdf

分享一种强化学习的建模过程，它是将通信当中的资源分配问题建立成强化学习方法，资源分配是指通信网络中，频谱资源、信道、带宽、天线功率等等是有限的，怎么管理这些资源来保证能够通信的同时优化整个网络吞吐量、功耗，这个就是网络资源分配。这里多智能体就是涉及博弈论的思想。

2024-06-26 09:50:15 935KB 强化学习 多智能体 无人机 资源分配

1

Dense reinforcement learning for safety validation of autonomous

Dense 强化学习在自动驾驶安全验证中的应用 Dense 强化学习是一种基于人工智能的技术，旨在加速自动驾驶汽车的安全验证过程。传统的安全验证方法需要在自然istic驾驶环境中对自动驾驶汽车进行测试，这些测试需要大量的时间和经济投入。为了解决这个问题，研究人员开发了一种智能测试环境，使用基于 Dense 强化学习的背景代理来验证自动驾驶汽车的安全性能。 Dense 强化学习是一种基于深度强化学习的方法，通过编辑马尔科夫决策过程，删除非安全关键状态，重新连接关键状态，以便从自然istic驾驶数据中获取紧凑的信息。这种方法可以使神经网络从紧凑的信息中学习，实现了传统深度强化学习方法无法实现的任务。在本研究中，研究人员使用 Dense 强化学习方法训练背景代理，来模拟自然istic驾驶环境中的安全关键事件。然后，他们使用高度自动化的测试车辆在高速公路和城市测试轨道上进行测试，结果表明，Dense 强化学习方法可以将评估过程加速多个数量级（10^3 到 10^5 倍）。该方法的应用前景非常广阔，不仅可以用于自动驾驶汽车的安全验证，还可以用于其他安全关键的自动系统的测试和培训。随着自动驾驶技术的快速发展，我们正处于交通革命的前沿，这项技术将大大推动自动驾驶技术的发展。知识点： 1. Dense 强化学习是一种基于深度强化学习的方法，用于加速自动驾驶汽车的安全验证过程。 2. 传统的安全验证方法需要在自然istic驾驶环境中对自动驾驶汽车进行测试，这些测试需要大量的时间和经济投入。 3. Dense 强化学习方法可以通过编辑马尔科夫决策过程，删除非安全关键状态，重新连接关键状态，以便从自然istic驾驶数据中获取紧凑的信息。 4. 该方法可以使神经网络从紧凑的信息中学习，实现了传统深度强化学习方法无法实现的任务。 5. 该方法可以用于自动驾驶汽车的安全验证，也可以用于其他安全关键的自动系统的测试和培训。 6. 该方法可以加速自动驾驶汽车的安全验证过程，达到多个数量级的加速效果。 7. 该方法的应用前景非常广阔，随着自动驾驶技术的快速发展，将大大推动自动驾驶技术的发展。 Dense 强化学习是一种基于人工智能的技术，旨在加速自动驾驶汽车的安全验证过程。其应用前景非常广阔，将大大推动自动驾驶技术的发展。

2024-06-24 10:34:58 3.19MB 自动驾驶仿真

1

Reinforcement Learning An Introduction.pdf

Reinforcement Learning An Introduction.pdf 2017年11月 445页

2024-05-23 15:45:25 10.94MB Reinforcemen learning data

1

Reinforcement Learning:An Introduction （2020）第二版，原版

强化学习2020版，英文，带目录

2023-05-03 19:39:42 69.74MB 强化学习导论原版

1

RecNN：围绕pytorch 1.7构建的增强推荐工具包

这是我的学校项目。它侧重于强化学习以进行个性化新闻推荐。主要区别在于，它试图通过动态生成的项目嵌入来解决在线非政策学习。我想使用SOTA算法创建一个库，以加强学习建议，并提供您喜欢的抽象级别。 :bar_chart: 这些功能可以总结为根据您的决定进行抽象：您可以导入整个算法（例如DDPG）并将其告诉ddpg.learn（batch），可以分别导入网络和学习功能，为任务创建自定义加载程序，也可以自己定义所有内容。示例不包含任何垃圾代码或变通办法：纯模型定义和算法本身在一个文件中。我写了几篇文章解释其功能。学习围绕支持ML20M等的顺序或框架环境构建。 Seq和Frame确定顺序数据的长度类型，seq是完全顺序动态大小（WIP），而帧只是静态帧。状态表示模块具有多种方法。对于顺序状态表示，可以使用LSTM / RNN / GRU（WIP）使用Modin（Dask / Ray）并行数据加载和缓存 Pytorch 1.7支持Tensorboard可视化。将来会添加新的数据集。 :books: 中篇文章回购协议由两部分组成：库（./recnn）和游乐场（.

2023-04-30 18:18:40 2.04MB library reinforcement-learning toolkit pytorch

1

DRLND-project-2：Udacity的深度强化学习纳米学位项目2的实施

DRLND-project-2 该存储库包含项目2的实现。项目详情到达者该项目实现了PPO，用于解决Unity环境中的连续控制问题-使机械臂跟随旋转的航点-在具有20个代理的变体版本上。最终执行记录：当手臂末端位于目标球体内/目标航路点的固定范围内时，每个代理随时间累积的奖励。代理的目标是遵循路标。对于每个代理，状态空间具有33个维度，而动作空间具有4个连续维度。该任务是情节性的，当特工在100个连续情节中获得+30的平均分数时，该任务被认为已解决。履带式该项目的可选/额外/挑战部分是控制爬虫。在面对正确方向和该方向的速度时，每个四脚实体尝试遵循目标目标时，每个代理随时间累积的奖励。该环境具有12个代理，每个代理以129维观察状态，并以20维控制动作。该环境基于。入门依存关系可以根据依赖关系来设置此项目的依赖关系。以下说明将引导您逐步设置该

2023-04-05 14:54:26 15.18MB deep-reinforcement-learning pytorch continuous-control proximal-policy-optimization

1

rl4j:JVM 的深度强化学习（Deep-Q，A3C）

RL4J：Java 强化学习有关 RL4J 的支持问题，请联系。 RL4J 是一个与 deeplearning4j 集成并在 Apache 2.0 开源许可下发布的强化学习框架。 DQN（带双 DQN 的深度 Q 学习）异步强化学习（A3C，异步 NStepQlearning）低维（信息数组）和高维（像素）输入。一篇有用的博客文章，向您介绍强化学习、DQN 和 Async RL：快速开始安装可视化厄运 Doom 还没有准备好，但如果你喜欢冒险，你可以通过一些额外的步骤让它工作：您将需要 vizdoom，编译本机库并将其移动到项目根目录中的文件夹中 export MAVEN_OPTS=-Djava.library.path=THEFOLDEROFTHELIB mvn compile exec:java -Dexec.mainClass="YOURMAINCL

2023-03-22 11:07:46 20.1MB reinforcement-learning artificial-intelligence doom dqn

1

TRPO-TensorFlow:纯TensorFlow中的信任区域策略优化（TRPO）

TRPO-张量流纯TensorFlow中的信任区域策略优化（TRPO）

2023-03-21 22:33:41 13KB reinforcement-learning tensorflow policy-gradient trpo

1

个人信息

点我去登录

下载历史

热门下载

基于YOLOV5的车牌定位和识别源码.zip

matlab时频分析工具箱+安装方法+函数说明+最新版tftb.

《应用非线性控制》（美）斯洛坦著；程代展译（清晰）

适用于eNSP 1.3.00 可加载的USG6000V防火墙设备包

人体姿态检测

云视通端口扫描器.rar

ChinaMeteorologicalDataHandler.R

拾荒者扫描器.zip

CPLEX12.8学术版安装包：cplex_studio128.win-x86-64.exe

中小型企业网络建设.pkt

基于javaweb的网上购物系统（毕业论文+答辩PPT+开题报告+源代码）

中国地面气候资料日值数据集(V3.0)2010-2019.rar

基于蒙特卡洛生成电动汽车充电负荷曲线程序

多智能体的编队控制matlab程序（自己编写的，可以运行）

Elsevier爱思唯尔的word模板.zip

最新下载

AQI指数计算器

火车站机场经纬度.zip

ibm_data_server_driver_package_win32_v11.1

本地音乐播放-Android代码

android自定义全键盘随机（包含字母+标点符号+数字）

Review_Assistant_3.6.435.0_破解版

中国省份城市中英文对照表

关于GD32芯片读保护的描述和解决办法1.pdf

VSAN诊断和故障排除参考手册

中国地势图.rar

其他资源

GrblController361_中文版.rar

超全pscad风机模型

UniGUI结合Echarts新Demo.rar

三维凸包讲解及算法代码

cyclegan风格迁移

基于51单片机的4路智能抢答器

Loadrunner12中文版用户手册及使用指南

基于DDS芯片ADC9850控制的函数信号发生器\A组基于DDS芯片ADC9850控制的函数信号发生器

C语言贪吃蛇双人对战版

buck电路的闭环调试仿真模型，适合初学者学习。matlab编写

VRMap3.0企业版破解补丁(解除次数限制)

Data Mining Concepts and Techniques 3rd Edition [PDF]

AndroidStudio 调用 C#编写的Webservice

gitTestingMay：这是Git的学习资料库-源码

图像分类-卷积神经网络：使用MNIST时尚数据集，构建了卷积神经网络将图像分类为10个类别之一。使用TensorFlow Framework和Keras库实现了CNN。在Google Colab上以60,000张图像训练模型-源码

语文复习专题《论语(选读)》的理解和评价.ppt

2017年10月高等教育自学考试全国统一命题考试计算机组成原理试卷及答案.doc

如何在WPF中创建动态故事板Storyboard

iisputscaner

jGibbLDA使用方法

~~共 302 条上一页 1 2 3 … 31 下一页共 302 条~~