强化学习(RL)通过与复杂环境的交互,推动机器学习从基础数据拟合到学习和规划的新时代。RL具有深度学习功能,在自动驾驶、推荐系统、无线通信、机器人、游戏等领域取得了巨大的成功。RL的成功很大程度上是基于RL算法的基础发展,直到最近才被彻底理解,特别是它们的有限时间收敛速度和样本复杂性。本教程将全面概述基础RL算法的理论理解的最新进展,利用随机近似/优化理论和利用RL问题的马尔可夫结构。本教程还将介绍一些高级的RL算法及其最近的发展。
2022-05-20 22:05:09 5.94MB 强化学习
CS50-AI项目 哈佛大学课程(课程。 专案 周 话题 名称 描述 怎么跑 视频 0 搜索 确定两个角色分开多少度 $ python degrees.py large 0 搜索 使用Minimax最佳玩井字游戏 $ python runner.py 1个 知识 解决逻辑难题 $ python puzzle.py 1个 知识 玩扫雷 $ python runner.py 2 不确定 按重要性对网页进行排名 $ python pagerank.py corpus0 2 不确定 评估一个人可能具有特定遗传特征的可能性 $ python heredity.py data/family0.cs
2022-05-20 11:27:31 201.85MB reinforcement-learning ai nim crossword
1
MuZero与Tensorflow中的AlphaZero 我们提供了基于流行的AlphaZero-General实施的AlphaZero和MuZero算法的可读性,注释性,充分记录的以及概念上容易实现的算法。 我们的实现将AlphaZero扩展为可用于单人游戏域,例如其后续产品MuZero。 该代码库提供了一个模块化框架来设计您自己的AlphaZero和MuZero模型,以及一个API来使这两种算法相互抵触。 该API还允许MuZero代理在与环境交互过程中更加强烈地依赖其学习的模型。 程序员可以例如指定在试验期间对所学的MuZero代理的观察稀疏性。 我们的界面还提供了足够的抽象来扩展MuZero或AlphaZero算法,以用于研究目的。 请注意,我们没有在桌游上进行广泛的测试,我们体验到这非常耗时且难以调整。 经过良好测试的环境包括“健身房”环境:CartPole-v1,Mount
1
强化学习 您可以在此处找到强化学习 Matlab 中的项目。 TP1:策略评估、策略迭代、价值迭代、Q-learning TP2:多臂强盗,汤普森采样
2022-05-19 14:50:39 1.12MB TeX
1
永不放弃 永不放弃的PyTorch实施:学习定向探索策略[] 仅实施了具有嵌入网络的偶然性好奇心。 安装 使用Python 3.7.9测试 pip install -r requirements.txt 火车 python train.py 结果 5x5结果 学分 R2D2基地是从通过
1
AI游戏 use AI to play some games. You can star this repository to keep track of the project if it's helpful for you, thank you for your support. 内容 名称 实施算法的数量 码 用中文(表达 AISnake 2 AI贪吃蛇 车手 1个 AI俄罗斯方块 五子棋 1个 AI五子棋 AITRexRush 3 AIChrome浏览器小恐龙游戏 爱庞 1个 AI乒乓球 AIPianoTiles 1个 AI别再踩白块了 艾帕克曼 1个 AI吃豆人 AIFlappyBird 2 AI飞扬的小鸟 更多 微信公众号 查尔斯·皮卡丘
2022-05-12 14:55:24 527.53MB game algorithm reinforcement-learning ai
1
IEEE COMMUNICATIONS SURVEYS & TUTORIALS, VOL. 21, NO. 4, FOURTH QUARTER 2019 Nguyen Cong Luong , Dinh Thai Hoang , Member, IEEE, Shimin Gong , Member, IEEE, Dusit Niyato , Fellow, IEEE,PingWang , Senior Member, IEEE, Ying-Chang Liang , Fellow, IEEE, and Dong In Kim , Fellow, IEEE
2022-05-09 17:14:09 5.17MB 强化学习 综述 通信和网络
1
很棒的蒙特卡洛树搜索论文。 ⠀ ⠀⠀ 蒙特卡罗树搜索论文的精选列表,其中包含来自以下会议/期刊的实现: 机器学习 计算机视觉 自然语言处理 数据 人工智能 UAI 机器人RAS 游戏CIG 关于图分类、梯度提升、分类/回归树、欺诈检测和社区检测论文的类似集合以及实现。 2021年 学习停止:动态模拟蒙特卡罗树搜索(AAAI 2021) Li-Cheng Lan, Ti-Rong Wu, I-Chen Wu, Cho-Jui Hsieh [纸] Dec-SGTS:多代理协调的分散子目标树搜索(AAAI 2021) 李明龙、蔡忠轩、杨文静、吴丽霞、徐颖慧、王季 [纸] 改进的 POMDP 树搜索规划与优先行动分支 (AAAI 2021) 约翰·默恩、阿尼尔·耶尔迪兹、劳伦斯·布什、Tapan Mukerji、Mykel J. Kochenderfer [纸]
1
金融交易的强化学习? 如何使用 MATLAB 使用模拟股票数据将强化学习用于金融交易。 设置跑步: 打开 RL_trading_demo.prj 打开工作流.mlx 运行工作流.mlx 环境和奖励可以在:myStepFunction.m 中找到 概述: 强化学习代理的目标很简单。 了解如何在不损失资金的情况下进行金融市场交易。 请注意,这与学习如何交易市场并尽可能多地赚钱不同。 这个例子的目的是展示: 1.什么是强化学习2. 如何将其应用于金融市场交易3. 为金融专业人士留下一个起点,让他们利用自己的领域专业知识来使用和增强。 该示例使用的环境由 3 只股票、20000 美元现金和 15 年的历史数据组成。 股票是: 通过几何布朗运动或历史市场数据(来源:AlphaVantage: www.alphavantage.co ) 版权所有2020 The MathWorks,
2022-05-06 05:23:29 3.97MB matlab
1
cadrl_ros(使用Deep RL避免冲突) 用Deep RL训练的动态避障算法的ROS实现 纸: M.Everett,Y.Chen和JP How,《具有深度强化学习的动态决策代理之间的运动计划》,IEEE / RSJ国际智能机器人和系统会议(IROS),2018年 论文: : 视频: : Bibtex: @inproceedings{Everett18_IROS, address = {Madrid, Spain}, author = {Everett, Michael and Chen, Yu Fan and How, Jonathan P.}, bookti
1