通过解读论文《Human-level control through deep reinforcement learning》完成了PPT相关制作,用于科研汇报,发布到网上,方便大家查阅以及提出建议。
2022-12-14 12:22:09 1.17MB 深度强化学习 论文 PPT
1
DQN综述(修正版).pdf
2022-12-13 21:21:11 642KB 强化学习
1
基于强化学习的用户行为分析uba
2022-12-13 15:00:28 17KB 用户行为分析 强化学习
基于深度强化学习的图片克隆生成
2022-12-13 11:30:03 5KB 图片克隆 验证码识别
* 实例: 冰壶游戏, 控制冰壶运动至目标位置 * 方法: 基于梯度下降的Sarsa($\lambda$) + 非均匀径向基特征表示 * 环境: Ubuntu16.04 + Python3.6 + Numpy1.17.4 ## 1. 实例问题描述 冰壶游戏是要控制一个半径为1, 质量为1的冰壶, 在一个长宽是均为100的正方形球场内移动. 不考虑冰壶的自转. 当冰壶和球场的边界碰撞时, 碰撞前后冰壶的速度会乘上回弹系数0.9, 移动方向和边界呈反射关系. 我们需要分别操纵x轴和y轴的两个力控制冰壶的移动: 在x轴的正或反方向施加5单位的力; 在y轴的正或反方向施加5单位的力. 这样一共会有4种不同的控制动作. 动作可以每1/10秒变换一次; 但在仿真冰壶运动动力学时, 仿真时间间隔是1/100秒. 除了我们施加的控制动作, 冰壶会受到空气阻力, 大小等于$0.005 \times speed^2$. 假设冰壶和地面没有摩擦力. 在每个决策时刻(1/10 秒), 环境反馈的奖励等于−d, 其中d 是冰壶和任意给定的目标点之间的距离. 为了保证学到的策略能够控制冰壶从任意初始位置上
2022-12-12 16:27:41 632KB 强化学习 冰壶游戏 自学习
深度强化学习自动炒股 选取 `1002` 只股票,进行训练,共计 - 盈利: `44.5%` - 不亏不赚: `46.5%` - 亏损:`9.0%`
2022-12-12 16:27:40 8KB 深度强化学习 自动炒股 机器学习
机器学习(期末复习笔记):支持向量机,人工神经网络,决策树,强化学习
2022-12-12 14:26:10 23.86MB 机器学习 支持向量机 强化学习 决策树
1
基于生物启发式算法的多智能体强化学习算法,强化学习,生物启发算法
2022-12-12 11:28:44 6.22MB 强化学习 多智能体
基于生物启发式算法的多智能体强化学习算法matlab和python实现
2022-12-12 11:28:43 121.21MB matlab 强化学习 自学习 python
基于深度强化学习的德州扑克AI算法优化(有限注德扑简化版),强化学习,在线学习,有限注德州扑克 内含教程,胜率75%
2022-12-12 11:28:33 2.92MB 强化学习 德州扑克