Chatbot_CN:基于金融-司法领域(兼有闲聊性质)的聊天机器人,其中的主要模块有信息抽取,NLU,NLG,知识图谱等,并利用Django整合了前端展示,目前已经封装了nlp和kg的restful接口
1
扑克RL 扑克游戏中的多智能体深度强化学习框架。 背景 解决不完善的信息游戏的研究主要围绕直到最近才遍历整个游戏树的方法(例如,请参见 , , )。 神经虚拟自我播放(NFSP) ,后悔策略梯度(RPG) ,深反事实后悔最小化(Deep CFR) 和单深CFR 等新算法最近将深(强化)使用常规方法(例如CFR和虚拟游戏)进行学习,以仅在访问游戏状态的一小部分时即可了解近似的纳什均衡。 PokerRL框架 PokerRL算法的组成部分 您的算法由相互交互的工作人员(绿色)组成。 训练运行的参数通过TrainingProfile的实例( .../rl/base_cls/Training
2021-05-12 11:04:25 325KB framework research reinforcement-learning poker
1
Reinforcement Learning - An Introduction,Richard S. Sutton著作,第二版,2018年3月25日版本,是目前最新的版本,548页
2021-05-10 17:22:40 16.15MB 强化学习
1
多代理深确定性策略梯度 多主体深度确定性策略梯度(MADDPG)算法的Pytorch实现 这是我在论文中提出的算法的实现:“针对混合合作竞争环境的多主体Actor评论家”。 您可以在这里找到本文: : 您将需要安装多代理粒子环境(MAPE),可以在这里找到: : 确保创建具有MAPE依赖项的虚拟环境,因为它们有些过时了。 我还建议使用PyTorch 1.4.0版运行此程序,因为最新版本(1.8)似乎与我在计算批评者损失时使用的就地操作存在问题。 将主存储库克隆到与MAPE相同的目录中可能是最容易的,因为主文件需要该软件包中的make_env函数。 可以在以下位置找到本教程的视频: :
1
用强化学习进行路径规划,各种强化学习的算法,适合从一开始进行学习,加实践代码哦
2021-05-07 11:48:22 11.6MB 强化学习 python 路径规划
1
机器学习算法文献
2021-04-29 01:47:11 1.16MB 人工智能
1
机器学习外文文献
2021-04-29 01:47:10 1.18MB 人工智能
1
[PYTORCH]玩超级马里奥兄弟的近战策略优化(PPO) 介绍 这是我的python源代码,用于训练特工玩超级马里奥兄弟。 通过使用纸张近端策略优化算法推出近端政策优化(PPO)算法。 说到性能,我经过PPO培训的代理可以完成29/32个级别,这比我一开始的预期要好得多。 供您参考,PPO是OpenAI提出的算法,用于训练OpenAI Five,这是第一款在电竞游戏中击败世界冠军的AI。 具体而言,OpenAI五人队在2018年8月派出了一支由MMR排名的脚轮和前职业球员组成的团队,在Dota 2玩家的99.95%中排名。 样品结果 动机 自从我发布我的A3C实现( )
2021-04-28 15:38:52 172.1MB python mario reinforcement-learning ai
1
视觉推送和抓取工具箱 视觉推送和抓取(VPG)是一种训练机器人代理以学习如何计划互补的推送和抓取操作以进行操纵(例如,用于非结构化的放置和放置应用程序)的方法。 VPG直接在视觉观察(RGB-D图像)上运行,从试错中学习,快速训练,并推广到新的对象和场景。 该存储库提供PyTorch代码,用于在UR5机械臂的模拟和实际设置中通过深度强化学习来训练和测试VPG策略。 这是本文的参考实现: 通过自我监督的深度强化学习来学习推动和抓握之间的协同作用 , ,( ,( ,( ,( 2018年IEEE / RSJ国际智能机器人和系统国际会议(IROS) 熟练的机械手操作得益于非灵活(例如推
1
《强化学习(第2版)》英文版,作为强化学习思想的深度解剖之作,被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。
2021-04-22 20:44:20 10.34MB 强化学习 英文版 Richard S.
1