如果您想使用Tensorflow ,不用担心,我像PyTorch一样制作了一个新的Tensorflow教程。 这是链接: : pyTorch教程 在pyTorch的这些教程中,我们将构建我们的第一个神经网络,并尝试构建一些近年来开发的高级神经网络架构。 感谢,它对本教程。 pyTorch基本 建立您的第一个网络 先进的神经网络 / 其他(在制品) 对于说中文的人:下面提到的所有方法都有其中文视频和文字教程。 请访问 。 您也可以观看我的。 捐款 如果这样做对您有帮助,请考虑捐赠以支持我以获得更好的教程。 任何贡献都将不胜感激!
1
在这些教程中,我们将演示和可视化遗传算法,进化策略,NEAT等算法。 下文提到的所有方法都有其中文视频和文本教程。 请访问 。 捐款 如果这样做对您有帮助,请考虑捐赠以支持我以获得更好的教程! 任何贡献都将不胜感激!
1
Reinforcement Learning - An Introduction 2nd 2017
2022-10-17 23:16:53 9.69MB RL
1
本文设计了一个自我监督的注意模块,该模块可以识别感兴趣的显着区域,而无需明确的手工标记注释。在现有的以CNNs为特征提取器的深度RL方法中,可以直接即插即用。 注意模块学习的是前景注意掩码,而不是预定义的关键点数量。
2022-10-12 17:06:59 7.33MB 自注意力
1
dm_env :DeepMind RL环境API 该软件包描述了用于Python强化学习(RL)环境的界面。 它由以下核心组件组成: dm_env.Environment :RL环境的抽象基类。 dm_env.TimeStep :一个容器类,表示每个时间步(过渡)上环境的输出。 dm_env.specs :一个模块,包含用于描述环境消耗的动作的格式以及其返回的观察值,奖励和折扣的原语。 dm_env.test_utils :用于测试具体环境实现是否符合dm_env.Environment接口的工具。 请参阅的文档以获取有关环境接口的语义以及如何使用它的更多信息。 子目录还包含使用dm_env接口实现的RL环境的说明性示例。 安装 dm_env可以使用pip从PyPI安装: pip install dm-env 请注意,从1.4版开始,我们仅支持Python 3.6+。 您还
1
a pdf file about Online Clustering Algorithms and Reinforcement Learning using in onilne clustering
2022-09-24 22:00:09 581KB algorithms online_learning
Reinforcement Learning: An Introduction Second edition, in progress November 5, 2017 Richard S. Sutton and Andrew G. Barto The text is now complete, except possibly for one more case study to be added to Chapter 16. The references still need to be thoroughly checked, and an index still needs to be added. Please send any errors to rich@richsutton.com and barto@cs.umass.edu. We are also very interested in correcting any important omissions in the \Bibliographical and Historical Remarks" at the end of each chapter. If you think of something that really should have been cited, please let us know and we can try to get it corrected before the nal version is printed. The MIT Press Cambridge, Massachusetts London, England
2022-09-15 09:55:26 10.96MB RL
1
DQN-PyTorch 实现PyTorch 目录: 项目结构: ├── agents | └── dqn.py # the main training agent for the dqn ├── graphs | └── models | | └── dqn.py | └── losses | | └── huber_loss.py # contains huber loss definition ├── datasets # contains all dataloaders for the project ├── utils # utilities folder containing input extraction, replay memory, config parsing, etc | └── assets | └── replay_memory.py |
1
多代理SAC 介绍 环境。 在这种环境下,两名特工控制球拍在球网上弹跳球。 如果探员将球击中网,则得到+0.1的奖励。 如果探员让一个球击中地面或将球击出界外,则其获得的奖励为-0.01。 因此,每个特工的目标是保持比赛中的球权。 观察空间由8个变量组成,分别对应于球和球拍的位置和速度。 每个代理都会收到自己的本地观察结果。 有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳跃。 该任务是情节性的,并且为了解决环境,您的特工必须获得+0.5的平均分数(在两个特工均取得最高分后,连续100次以上)。 具体来说, 在每个情节之后,我们将每个代理商获得的奖励加起来(不打折),以获得每个代理商的得分。 这将产生2个(可能不同)的分数。 然后,我们取这两个分数中的最大值。 这为每个情节产生一个单一的分数。 当这些分数的平均值(超过100集)至少为+0.5时,就认为环境已解决。
1
Coursera作业 该存储库旨在帮助在学习过程中遇到困难的Coursera学习者。 测验和编程作业属于Coursera,请不要将其用于任何其他目的。 如有任何问题,请随时与我联系,我的电子邮件是 。 经济学院专业化高级机器学习 深度学习导论 Python数据科学导论 Python中的应用机器学习 大数据导论 大数据建模与管理系统 大数据交互与处理 文字检索和搜索引擎 文本挖掘和分析 数据挖掘中的模式发现 数据挖掘中的聚类分析 数据科学家的工具箱 R编程 获取和清理数据 算法工具箱 数据结构 图上的算法 字符串算法 神经网络与深度学习 改善深度神经网络的超参数调整,正则化和优化 构建机器学习项
1