蒸汽推荐系统
基于Steam用户库数据集中的协同过滤(皮尔逊相似系数)的推荐系统。
Pandas用于大多数数据操作,其中一些字符串函数用于非Unicode,非字母数字文本清除。 此外,Flask和JS用于前端。
数据整理
在建立此推荐系统时使用了两个数据集。 首先是来自Kaggle的。 这是为了将游戏名称标识为其应用程序ID,这是必需的,因为其他数据集(不包含应用程序ID)以用户每个游戏小时的小时数的形式包含隐式评级。 用户数据集也来自Kaggle。
隐式评级
用户数据集包含每个用户的数据 玩游戏 为了 小时。 我所做的是将隐式的评分时间转换为从1到5的显式评分。
只需将额定值线性映射到范围即可实现 在哪里 是平均游戏小时数 在整个数据集中播放。
端点数据集
此数据集是使用我们数据集中的游戏者的appid与包含游戏标头图像的媒体数据集的内部连接生成的。 该数据集用于检索浏览器中前端的媒
1