象棋学习者 新手尝试使用Gym-chess和tensorflow使用Python进行强化学习国际象棋机器人。 要开始训练,只需运行Chess_env.py 建议您的第一次培训课程使用“ training_method” 1快速用有用的培训数据填充存储库。 从那里前进到方法0,以快速学习执行随机移动机器人。 最终的训练方法是2,它将继续针对其自身的先前版本进行训练,直到无法继续改进为止。
2022-11-17 17:57:26 6KB Python
1
线性二次型最优控制,专业性资料,ppt资料
2022-11-17 17:07:32 350KB 线性二次型最优控制 ppt
1
OpenSpiel:游戏中强化学习的框架 OpenSpiel是用于一般强化学习和游戏中搜索/计划研究的环境和算法的集合。 OpenSpiel支持n玩家(单人和多人)零和,合作和一般和,单发和顺序,严格的回合和同时移动,完美和不完美的信息游戏,以及传统的多人环境例如(部分和完全可观察的)网格世界和社会困境。 OpenSpiel还包括用于分析学习动态和其他常见评估指标的工具。 游戏被表示为程序扩展形式的游戏,具有一些自然的扩展。 核心API和游戏以C ++实现,并公开给Python。 算法和工具都是用C ++和Python编写的。 swift子目录中还有一个纯Swift分支。 要在Google Colaboratory中尝试OpenSpiel,请参考open_spiel/colabs子目录或从开始。 指数 请在以下选项中选择: 有关核心概念,形式主义和术语的较长介绍,包括算法概述和一些结果,请参阅《 。 有关OpenSpiel的概述以及核心API的示例用法,请参见教程演示幻灯片: 。 如果您在研究中使用OpenSpiel,请使用以下BibTeX引用该论文: @article{
2022-11-17 15:56:03 2.97MB python swift games reinforcement-learning
1
本文来自于csdn,本文中通过探讨状态空间的利用和探索,来进行人工智能中的强化学习。在有监督学习(supervisedlearning)中,训练数据中包含了数据样本的目标。不过现实中可没有上帝一样的监督者给出这些目标或答案!强化学习(reinforcementlearning)是人工智能(AI)的一个重要分支,它也是DeepMind的阿尔法狗(AplhaGo)得以实现的一块基石。在强化学习中,虽然没有现成的答案,但是代理(agent)仍然必须决定如何行动(action)来完成它自己的任务。在没有训练数据的情况下,代理从经验中学习。它通过反复的试错来收集训练样本(“这个动作很好,那个动作很糟糕”
1
健身搏击 使用OpenAI环境工具包的战舰环境。 基本 制作并初始化环境: import gym import gym_battleship env = gym.make('battleship-v0') env.reset() 获取动作空间和观察空间: ACTION_SPACE = env.action_space.n OBSERVATION_SPACE = env.observation_space.shape[0] 运行一个随机代理: for i in range(10): env.step(env.action_space.sample()) 观察隐藏的游戏状态: print(env.board_generated) 有效动作 有两种输入动作的方法。 第一种方法是按原样输入元组: env = gym.make('battleship-v0') env.reset(
1
绝对可以用的二级倒立摆模型。simulink建模,matlab编写s函数,使用lqr最优控制亲测可用, 谢谢支持。
2022-11-11 20:03:38 580KB simulink建模
1
一个可用于为矩阵乘法等基本任务发现新颖、高效且可证明正确的算法的人工智能系统
2022-11-11 09:33:17 1.9MB Alphatensor 强化学习
1
多智能体强化学习pymarl框架和smac环境以及安装包
2022-11-10 20:23:52 500.38MB 强化学习 人工智能
1
2048健身房 该存储库是一个有关使用DQN(Q-Learning)玩2048游戏并使用加速和加速环境的。使用的算法来自“ ,环境是自定义的 env。该环境包含两种类型的电路板表示形式:二进制和无二进制。第一个使用幂二矩阵来表示电路板的每个图块。相反,没有二进制文件使用原始矩阵板。 该模型使用两种不同类型的神经网络:CNN(卷积神经网络),MLP(多层感知器)。使用CNN作为特征提取器比使用MLP更好。可能是因为CNN可以提取空间特征。结果,代理在1000个已玩游戏的10%中获得2048个图块。 奥图纳 Optuna是一个自动超参数优化软件框架,专门为机器学习而设计。它具有命令式,按运行定义样式的用户API。多亏了我们的运行定义API,用Optuna编写的代码具有高度的模块化,并且Optuna的用户可以动态构造超参数的搜索空间。 还有就是如何使用这个库指南。 Numba 是一种开源JI
1
Snake-AI:使用深度强化学习训练的Snake游戏
2022-11-10 11:18:59 2KB Python
1