本实验采用的数据集使用了 Jester 数据集作为所有算法的训练和测试数据集。Jester是一个为研究而开发的笑话推荐系统,使用的数据集中的数据则是次系统获取的真实用户数据。
数据集包含 3 个文件,共包含 73421 个用户对于 100 个笑话的评分数据。数据为 xls 格式,每一行有 101 个数据,第一个为用户评价过的笑话个数,剩下的 100 个为用户对于 100 个笑话的评分,评分为 -10~10 之间的实数,99 表示 “null”,即未打分。数据集的 5, 7, 8, 13, 15, 16, 17, 18, 19, 20 是密集的,几乎所用的用户都给这些笑话打分过。
2023-03-28 15:07:15
6.24MB
python
1