这是我的学校项目。 它侧重于强化学习以进行个性化新闻推荐。 主要区别在于,它试图通过动态生成的项目嵌入来解决在线非政策学习。 我想使用SOTA算法创建一个库,以加强学习建议,并提供您喜欢的抽象级别。 :bar_chart: 这些功能可以总结为 根据您的决定进行抽象:您可以导入整个算法(例如DDPG)并将其告诉ddpg.learn(batch),可以分别导入网络和学习功能,为任务创建自定义加载程序,也可以自己定义所有内容。 示例不包含任何垃圾代码或变通办法:纯模型定义和算法本身在一个文件中。 我写了几篇文章解释其功能。 学习围绕支持ML20M等的顺序或框架环境构建。 Seq和Frame确定顺序数据的长度类型,seq是完全顺序动态大小(WIP),而帧只是静态帧。 状态表示模块具有多种方法。 对于顺序状态表示,可以使用LSTM / RNN / GRU(WIP) 使用Modin(Dask / Ray)并行数据加载和缓存 Pytorch 1.7支持Tensorboard可视化。 将来会添加新的数据集。 :books: 中篇文章 回购协议由两部分组成:库(./recnn)和游乐场(.
2023-04-30 18:18:40 2.04MB library reinforcement-learning toolkit pytorch
1
引用于github的fast rcnn代码,实现论文中 的目标检测程序,安装readme进行安装即可
2020-01-13 03:16:48 291KB fast recnn
1