gobangAI AI大作业,实现了棋盘检测,博弈树AI,遗传算法AI,强化学习AI,结果一般
2022-11-17 19:05:02 9.27MB Python
1
象棋学习者 新手尝试使用Gym-chess和tensorflow使用Python进行强化学习国际象棋机器人。 要开始训练,只需运行Chess_env.py 建议您的第一次培训课程使用“ training_method” 1快速用有用的培训数据填充存储库。 从那里前进到方法0,以快速学习执行随机移动机器人。 最终的训练方法是2,它将继续针对其自身的先前版本进行训练,直到无法继续改进为止。
2022-11-17 17:57:26 6KB Python
1
OpenSpiel:游戏中强化学习的框架 OpenSpiel是用于一般强化学习和游戏中搜索/计划研究的环境和算法的集合。 OpenSpiel支持n玩家(单人和多人)零和,合作和一般和,单发和顺序,严格的回合和同时移动,完美和不完美的信息游戏,以及传统的多人环境例如(部分和完全可观察的)网格世界和社会困境。 OpenSpiel还包括用于分析学习动态和其他常见评估指标的工具。 游戏被表示为程序扩展形式的游戏,具有一些自然的扩展。 核心API和游戏以C ++实现,并公开给Python。 算法和工具都是用C ++和Python编写的。 swift子目录中还有一个纯Swift分支。 要在Google Colaboratory中尝试OpenSpiel,请参考open_spiel/colabs子目录或从开始。 指数 请在以下选项中选择: 有关核心概念,形式主义和术语的较长介绍,包括算法概述和一些结果,请参阅《 。 有关OpenSpiel的概述以及核心API的示例用法,请参见教程演示幻灯片: 。 如果您在研究中使用OpenSpiel,请使用以下BibTeX引用该论文: @article{
2022-11-17 15:56:03 2.97MB python swift games reinforcement-learning
1
本文来自于csdn,本文中通过探讨状态空间的利用和探索,来进行人工智能中的强化学习。在有监督学习(supervisedlearning)中,训练数据中包含了数据样本的目标。不过现实中可没有上帝一样的监督者给出这些目标或答案!强化学习(reinforcementlearning)是人工智能(AI)的一个重要分支,它也是DeepMind的阿尔法狗(AplhaGo)得以实现的一块基石。在强化学习中,虽然没有现成的答案,但是代理(agent)仍然必须决定如何行动(action)来完成它自己的任务。在没有训练数据的情况下,代理从经验中学习。它通过反复的试错来收集训练样本(“这个动作很好,那个动作很糟糕”
1
健身搏击 使用OpenAI环境工具包的战舰环境。 基本 制作并初始化环境: import gym import gym_battleship env = gym.make('battleship-v0') env.reset() 获取动作空间和观察空间: ACTION_SPACE = env.action_space.n OBSERVATION_SPACE = env.observation_space.shape[0] 运行一个随机代理: for i in range(10): env.step(env.action_space.sample()) 观察隐藏的游戏状态: print(env.board_generated) 有效动作 有两种输入动作的方法。 第一种方法是按原样输入元组: env = gym.make('battleship-v0') env.reset(
1
一个可用于为矩阵乘法等基本任务发现新颖、高效且可证明正确的算法的人工智能系统
2022-11-11 09:33:17 1.9MB Alphatensor 强化学习
1
多智能体强化学习pymarl框架和smac环境以及安装包
2022-11-10 20:23:52 500.38MB 强化学习 人工智能
1
2048健身房 该存储库是一个有关使用DQN(Q-Learning)玩2048游戏并使用加速和加速环境的。使用的算法来自“ ,环境是自定义的 env。该环境包含两种类型的电路板表示形式:二进制和无二进制。第一个使用幂二矩阵来表示电路板的每个图块。相反,没有二进制文件使用原始矩阵板。 该模型使用两种不同类型的神经网络:CNN(卷积神经网络),MLP(多层感知器)。使用CNN作为特征提取器比使用MLP更好。可能是因为CNN可以提取空间特征。结果,代理在1000个已玩游戏的10%中获得2048个图块。 奥图纳 Optuna是一个自动超参数优化软件框架,专门为机器学习而设计。它具有命令式,按运行定义样式的用户API。多亏了我们的运行定义API,用Optuna编写的代码具有高度的模块化,并且Optuna的用户可以动态构造超参数的搜索空间。 还有就是如何使用这个库指南。 Numba 是一种开源JI
1
Snake-AI:使用深度强化学习训练的Snake游戏
2022-11-10 11:18:59 2KB Python
1
RLDiceGame 介绍 该存储库中的代码实现了一个简单的框架,用于骰子游戏中的强化学习。 强化学习是指能够从反复试验中学习的机器学习框架。 该框架很大程度上归功于马尔可夫决策过程:每个步骤都由一个状态和在该状态下要执行的选定动作来描述。 下一步包含通过对初始状态执行操作而计算出的新状态。 强化学习增加了一种反馈机制,该机制允许所计算的动作响应于外部提供的分数而改变。 增强型学习与监督式学习相反,后者是一种指导机器根据已知分类对状态进行分类的方法,而无监督式学习则是一种无监督学习的方法,后者是一种机器在训练数据中标识自己的集群的方法。 在强化学习中,提供的反馈是基于初始状态和采取的措施的得分。 作为特定示例,Blue Orange Games为流行的骰子游戏Yamslam提供了训练工具。 线束和游戏仅实现一轮Yamslam,包括初始掷出5个6面骰子,决定保留5个初始掷骰子的子集,然后
2022-11-10 11:09:53 88KB Python
1