gobangAI AI大作业,实现了棋盘检测,博弈树AI,遗传算法AI,强化学习AI,结果一般
2022-11-17 19:05:02 9.27MB Python
1
象棋学习者 新手尝试使用Gym-chess和tensorflow使用Python进行强化学习国际象棋机器人。 要开始训练,只需运行Chess_env.py 建议您的第一次培训课程使用“ training_method” 1快速用有用的培训数据填充存储库。 从那里前进到方法0,以快速学习执行随机移动机器人。 最终的训练方法是2,它将继续针对其自身的先前版本进行训练,直到无法继续改进为止。
2022-11-17 17:57:26 6KB Python
1
OpenSpiel:游戏中强化学习的框架 OpenSpiel是用于一般强化学习和游戏中搜索/计划研究的环境和算法的集合。 OpenSpiel支持n玩家(单人和多人)零和,合作和一般和,单发和顺序,严格的回合和同时移动,完美和不完美的信息游戏,以及传统的多人环境例如(部分和完全可观察的)网格世界和社会困境。 OpenSpiel还包括用于分析学习动态和其他常见评估指标的工具。 游戏被表示为程序扩展形式的游戏,具有一些自然的扩展。 核心API和游戏以C ++实现,并公开给Python。 算法和工具都是用C ++和Python编写的。 swift子目录中还有一个纯Swift分支。 要在Google Colaboratory中尝试OpenSpiel,请参考open_spiel/colabs子目录或从开始。 指数 请在以下选项中选择: 有关核心概念,形式主义和术语的较长介绍,包括算法概述和一些结果,请参阅《 。 有关OpenSpiel的概述以及核心API的示例用法,请参见教程演示幻灯片: 。 如果您在研究中使用OpenSpiel,请使用以下BibTeX引用该论文: @article{
2022-11-17 15:56:03 2.97MB python swift games reinforcement-learning
1
本文来自于csdn,本文中通过探讨状态空间的利用和探索,来进行人工智能中的强化学习。在有监督学习(supervisedlearning)中,训练数据中包含了数据样本的目标。不过现实中可没有上帝一样的监督者给出这些目标或答案!强化学习(reinforcementlearning)是人工智能(AI)的一个重要分支,它也是DeepMind的阿尔法狗(AplhaGo)得以实现的一块基石。在强化学习中,虽然没有现成的答案,但是代理(agent)仍然必须决定如何行动(action)来完成它自己的任务。在没有训练数据的情况下,代理从经验中学习。它通过反复的试错来收集训练样本(“这个动作很好,那个动作很糟糕”
1
健身搏击 使用OpenAI环境工具包的战舰环境。 基本 制作并初始化环境: import gym import gym_battleship env = gym.make('battleship-v0') env.reset() 获取动作空间和观察空间: ACTION_SPACE = env.action_space.n OBSERVATION_SPACE = env.observation_space.shape[0] 运行一个随机代理: for i in range(10): env.step(env.action_space.sample()) 观察隐藏的游戏状态: print(env.board_generated) 有效动作 有两种输入动作的方法。 第一种方法是按原样输入元组: env = gym.make('battleship-v0') env.reset(
1
一个可用于为矩阵乘法等基本任务发现新颖、高效且可证明正确的算法的人工智能系统
2022-11-11 09:33:17 1.9MB Alphatensor 强化学习
1
多智能体强化学习pymarl框架和smac环境以及安装包
2022-11-10 20:23:52 500.38MB 强化学习 人工智能
1
2048健身房 该存储库是一个有关使用DQN(Q-Learning)玩2048游戏并使用加速和加速环境的。使用的算法来自“ ,环境是自定义的 env。该环境包含两种类型的电路板表示形式:二进制和无二进制。第一个使用幂二矩阵来表示电路板的每个图块。相反,没有二进制文件使用原始矩阵板。 该模型使用两种不同类型的神经网络:CNN(卷积神经网络),MLP(多层感知器)。使用CNN作为特征提取器比使用MLP更好。可能是因为CNN可以提取空间特征。结果,代理在1000个已玩游戏的10%中获得2048个图块。 奥图纳 Optuna是一个自动超参数优化软件框架,专门为机器学习而设计。它具有命令式,按运行定义样式的用户API。多亏了我们的运行定义API,用Optuna编写的代码具有高度的模块化,并且Optuna的用户可以动态构造超参数的搜索空间。 还有就是如何使用这个库指南。 Numba 是一种开源JI
1
Snake-AI:使用深度强化学习训练的Snake游戏
2022-11-10 11:18:59 2KB Python
1
RLDiceGame 介绍 该存储库中的代码实现了一个简单的框架,用于骰子游戏中的强化学习强化学习是指能够从反复试验中学习的机器学习框架。 该框架很大程度上归功于马尔可夫决策过程:每个步骤都由一个状态和在该状态下要执行的选定动作来描述。 下一步包含通过对初始状态执行操作而计算出的新状态。 强化学习增加了一种反馈机制,该机制允许所计算的动作响应于外部提供的分数而改变。 增强型学习与监督式学习相反,后者是一种指导机器根据已知分类对状态进行分类的方法,而无监督式学习则是一种无监督学习的方法,后者是一种机器在训练数据中标识自己的集群的方法。 在强化学习中,提供的反馈是基于初始状态和采取的措施的得分。 作为特定示例,Blue Orange Games为流行的骰子游戏Yamslam提供了训练工具。 线束和游戏仅实现一轮Yamslam,包括初始掷出5个6面骰子,决定保留5个初始掷骰子的子集,然后
2022-11-10 11:09:53 88KB Python
1