象棋学习者 新手尝试使用Gym-chess和tensorflow使用Python进行强化学习国际象棋机器人。 要开始训练,只需运行Chess_env.py 建议您的第一次培训课程使用“ training_method” 1快速用有用的培训数据填充存储库。 从那里前进到方法0,以快速学习执行随机移动机器人。 最终的训练方法是2,它将继续针对其自身的先前版本进行训练,直到无法继续改进为止。
2022-11-17 17:57:26 6KB Python
1
OpenSpiel:游戏中强化学习的框架 OpenSpiel是用于一般强化学习和游戏中搜索/计划研究的环境和算法的集合。 OpenSpiel支持n玩家(单人和多人)零和,合作和一般和,单发和顺序,严格的回合和同时移动,完美和不完美的信息游戏,以及传统的多人环境例如(部分和完全可观察的)网格世界和社会困境。 OpenSpiel还包括用于分析学习动态和其他常见评估指标的工具。 游戏被表示为程序扩展形式的游戏,具有一些自然的扩展。 核心API和游戏以C ++实现,并公开给Python。 算法和工具都是用C ++和Python编写的。 swift子目录中还有一个纯Swift分支。 要在Google Colaboratory中尝试OpenSpiel,请参考open_spiel/colabs子目录或从开始。 指数 请在以下选项中选择: 有关核心概念,形式主义和术语的较长介绍,包括算法概述和一些结果,请参阅《 。 有关OpenSpiel的概述以及核心API的示例用法,请参见教程演示幻灯片: 。 如果您在研究中使用OpenSpiel,请使用以下BibTeX引用该论文: @article{
2022-11-17 15:56:03 2.97MB python swift games reinforcement-learning
1
红色瀑布流图片站bootstrap网站模板_红色 瀑布流 相册 图库 图片 摄影 手机 bootstrap 响应式 自适应 简洁 jquery 单页 交互.rar
2022-11-17 13:18:57 1.46MB bootstrap
针对视频监控系统的去隔行问题,在分析了传统去隔行算法优缺点的基础上,提出了一种高性能的运动自适应去隔行算法。该算法通过可检测空间周期模式运动的4场运动检测方法对插值点运动状态进行判断,将图像分为静止区域和运动区域。静止区域的插值采用场合并算法;运功区域的插值采用改进型边沿自适应插值算法,增强了水平边沿检测功能并提升了一致性边沿方向的估计水平。DSP实验结果表明,提出的算法可提高图像的峰值信噪比(PSNR)和结构相似度(SSIM),有效抑制锯齿化、行间闪烁和运动虚像等不良效应,获得良好的视觉效果。
2022-11-16 13:48:54 453KB 工程技术 论文
1
庞中华的《系统辨识与自适应控制MATLAB仿真》从MATLAB仿真及可视化仿真的角度出发,系统地介绍了系统辨识与自适应控制的基本理论和方法。书籍里面详细介绍了广义预测控制等算法。此资料为书籍里面所有算法事例的源代码。
2022-11-15 22:41:03 983KB 自适应控制 matlab 广义预测
1
基于一阶局部多项式分析的自适应相位去噪
2022-11-15 21:52:57 1.07MB 研究论文
1
针对模型未知的多机械臂系统,利用多个独立的RBF神经网络,对每个子机械臂系统进行逼近,基于图论原理定义了每个子系统之间的同步耦合关系,结合滑模控制方法设计出一种机械臂无模型自适应同步控制器。通过神经网络权值的不断在线迭代过程,随机械臂工作任务的变化可以实现对其动力学模型的实时逼近,摆脱了数学模型的限制,扩大了控制器的应用范围,在初始误差较大的情况下也可以保证对期望轨迹实现快速跟踪,并且系统在载荷发生改变等不确定的情况下依然能够实现同步,提高了控制器的鲁棒性。最后通过Lyapunov稳定性分析和Matlab仿真对所设计的同步控制器进行了验证。
1
%自适应中值滤波-Chan R H, Ho C W, Nikolova M. Salt-and-pepper noise removal by %median-type noise detectors and detail-preserving regularization[J]. %IEEE Trans. Image Process, 2005, 14(10): 1479~1485.
2022-11-15 17:54:30 1KB 图像椒盐去噪
1
本文来自于csdn,本文中通过探讨状态空间的利用和探索,来进行人工智能中的强化学习。在有监督学习(supervisedlearning)中,训练数据中包含了数据样本的目标。不过现实中可没有上帝一样的监督者给出这些目标或答案!强化学习(reinforcementlearning)是人工智能(AI)的一个重要分支,它也是DeepMind的阿尔法狗(AplhaGo)得以实现的一块基石。在强化学习中,虽然没有现成的答案,但是代理(agent)仍然必须决定如何行动(action)来完成它自己的任务。在没有训练数据的情况下,代理从经验中学习。它通过反复的试错来收集训练样本(“这个动作很好,那个动作很糟糕”
1