协同过滤算法设计(图书推荐系统数据集)
2021-12-30 17:09:46 2.48MB 推荐系统
1
基于Spark电影推荐系统-数据表SQL
2021-12-20 16:28:18 45.3MB spark
1
适合做推荐的数据集,适合新手使用的数据,对电影的评分以及用户对其产生行为的时间戳组成。共有四个属性,userId,movieId,rating,以及timestamp。
2021-12-15 22:58:02 2.37MB 推荐系统 数据集 评分
1
Netflix 推荐系统数据.gz
2021-12-09 22:42:31 665.24MB 推荐系统数据
1
推荐系统的常用数据集,包括eachmovie和Book Crossing
2021-12-04 10:53:00 40.41MB 推荐系统 攻击检测
1
完整的基于spark的电影推荐系统数据集,保证可用,积分给少一点,大家放心下载吧
2021-11-24 16:34:30 5.6MB spark 协同过滤 推荐系统
1
products.csv,ratings.csv
2021-10-07 10:21:36 285KB 大数据
1
京东商品推荐系统 数据爬虫部分 本项目用来抓取京东商城的食品区域的商品信息、评价信息和用户数据,数据库采用Mysql。 爬虫的核心模块采用,主要实现了JDPageProcessor类,继承自PageProcessor。 采用XPath和CSS Selector两种模式抽取网页信息。如抽取商品页面用户链接信息: String aHref = html.xpath("div[@class='item']/div[@class='user']/div[@class='u-icon']/a/@href").toString(); 采用的是Xpath抽取方式,过程:提取html中class为item的div中的class为user的div中的class为u-icon中的超链接。`
2021-09-27 09:36:35 52KB Java
1
# -*- coding: utf-8 -*- import pandas as pd import numpy as np from math import sqrt critics={'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5, 'Just My Luck': 3.0, 'Superman Returns': 3.5, 'You, Me and Dupree': 2.5, 'The Night Listener': 3.0}, 'Gene Seymour': {'Lady in the Water': 3.0, 'Snakes on a Plane': 3.5, 'Just My Luck': 1.5, 'Superman Returns': 5.0, 'The Night Listener': 3.0, 'You, Me and Dupree': 3.5}, 'Michael Phillips': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.0, 'Superman Returns': 3.5, 'The Night Listener': 4.0}, 'Claudia Puig': {'Snakes on a Plane': 3.5, 'Just My Luck': 3.0, 'The Night Listener': 4.5, 'Superman Returns': 4.0, 'You, Me and Dupree': 2.5}, 'Mick LaSalle': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0, 'Just My Luck': 2.0, 'Superman Returns': 3.0, 'The Night Listener': 3.0, 'You, Me and Dupree': 2.0}, 'Jack Matthews': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0, 'The Night Listener': 3.0, 'Superman Returns': 5.0, 'You, Me and Dupree': 3.5}, 'Toby': {'Snakes on a Plane':4.5,'You, Me and Dupree':1.0,'Superman Returns':4.0}} df_critics=pd.DataFrame(critics) ##欧氏距离 def sim_distance(prefs,person1,person2): si={} for item in prefs[person1]: if item in prefs[person2]: si[item]=1 if len(si)==0: return 0 sum_of_squares=sum([pow(prefs[person1][item]-prefs[person2][item],2) for item in prefs[person1] if item in prefs[person2]]) return 1/(1+sqrt(sum_of_squares)) ##numpy pandas 方法 def sim_distance2(prefs,person1,person2): return 1/(1+np.linalg.norm(prefs[person1]-prefs[person2])) ##皮尔逊相关系数 def sim_pearson(prefs,p1,p2): si={} for item in prefs[p1]: if item in prefs[p2]: si[item]=1 n=len(si) if n==0: return 1 ##对所有偏好求和 sum1=sum([prefs[p1][it] for it in si]) sum2=sum([prefs[p2][it] for it in si]) ##求平方和 sum1Sq=sum([pow(prefs[p1][it]