10- Armed Bandit Test bed using greedy algorithm:这是一个使用贪婪算法创建10个武装匪徒测试床的脚本-matlab开发

上传者: 38667920 | 上传时间: 2023-02-27 15:37:31 | 文件大小: 2KB | 文件类型: ZIP
这是一组 2000 个随机生成的 k 臂老虎机k = 10 的问题。对于每个强盗问题,动作值, q*(a), a = 1,2 .... 10, 是根据均值为 0 的正态(高斯)分布选择的,并且方差 1. 然后,当应用于该问题的学习方法在时间步长 t 选择动作 At 时, 实际奖励 Rt 选自均值为 q*(At) 且方差为 1 的正态分布。 对于任何学习方法,我们都可以衡量它的性能和行为,因为它随着经验的增加而改进应用于其中一个老虎机问题时的 1000 个时间步。 这构成了一次运行。 重复这个对于 2000 次独立运行,每次运行都有不同的老虎机问题,我们获得了学习的度量算法的平均行为。 我们使用样本平均技术进行动作价值估计,并通过绘制 2000 次模拟的平均奖励来比较贪心算法的结果。 也可以针对非贪婪算法修改代码。

文件下载

资源详情

[{"title":"( 1 个子文件 2KB ) 10- Armed Bandit Test bed using greedy algorithm:这是一个使用贪婪算法创建10个武装匪徒测试床的脚本-matlab开发","children":[{"title":"Armed_Bandit_Testbed_Greedy_Sutton.zip <span style='color:#111;'> 1.69KB </span>","children":null,"spread":false}],"spread":true}]

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明