这是我的学校项目。 它侧重于强化学习以进行个性化新闻推荐。 主要区别在于,它试图通过动态生成的项目嵌入来解决在线非政策学习。 我想使用SOTA算法创建一个库,以加强学习建议,并提供您喜欢的抽象级别。
:bar_chart: 这些功能可以总结为
根据您的决定进行抽象:您可以导入整个算法(例如DDPG)并将其告诉ddpg.learn(batch),可以分别导入网络和学习功能,为任务创建自定义加载程序,也可以自己定义所有内容。
示例不包含任何垃圾代码或变通办法:纯模型定义和算法本身在一个文件中。 我写了几篇文章解释其功能。
学习围绕支持ML20M等的顺序或框架环境构建。 Seq和Frame确定顺序数据的长度类型,seq是完全顺序动态大小(WIP),而帧只是静态帧。
状态表示模块具有多种方法。 对于顺序状态表示,可以使用LSTM / RNN / GRU(WIP)
使用Modin(Dask / Ray)并行数据加载和缓存
Pytorch 1.7支持Tensorboard可视化。
将来会添加新的数据集。
:books: 中篇文章
回购协议由两部分组成:库(./recnn)和游乐场(.
1