介绍了现有协同过滤推荐的几种主要算法。它们对数据稀疏性问题都有一定的缓和作用。通过在数据集MovieLens上的实验,分析了各个算法在不同稀疏度下的推荐质量,为针对不同数据稀疏度的系统实现提供了可靠依据。
1
协作过滤算法(CF)在推荐系统中难以处理数据的稀疏性和可伸缩性问题。本文提出了基于类别偏好Canopy-K-means的协同过滤算法(CPCKCF),设计了用户项类别偏好比率(UICPR)的定义,并用来计算UICPR矩阵。将Canopy算法作为CPCKCF的前置算法,并将输出作为K-means算法的输入,其结果用于用户数据进行聚类并找到最近的用户以获得预测得分,使用MovieLens数据集进行的实验结果表明,与传统的基于用户的协作过滤算法相比,所提出的CPCKCF算法将计算效率和推荐精度提高了2.81%。
1
我们将在MovieLens(http://movielens.org)数据集上进行实验,在实验中,我们主要利用到的数据集中的两个文件u.data和u.item,其中u.item中记录的是电影的相关信息,u.data中主要是用户对电影的评分信息,评分的范围是1-5,文件的每一列分别表示用户ID,电影ID,评分,时间戳。
2021-06-30 13:43:36 152KB 电影数据 协同过滤数据
1
推荐系统协同过滤实验数据集,可用于学习基于用户或者基于电影的协同过滤算法。非常实用的数据集,值得收藏。
2021-04-14 22:00:36 5.73MB 推荐系统 协同过滤 数据集
1