在这个豆瓣电影分析与推荐系统中,我们使用了PYTHON语言来编写整个项目代码,分析所需数据完全利用爬虫爬取得到,爬取所得的数据被存入MYSQL数据库中,取得的数据被用作两个方面。
其一,被爬取得到的数据被用于进行电影分析,我们将爬取到的top300部电影的信息按照影片发行国家和影片类型进行了分析并制作了图表来直观显示受欢迎的电影的分类。
其二,我们利用了一种用于推荐系统的算法---协同过滤算法,来为每位参与电影评分的用户筛选出推荐电影内容,首先读入数据,形成用户-电影矩阵,其次根据用户-电影矩阵计算不同电影之间的相关系数(一般用person相关系数),形成电影-电影相关度矩阵。然后根据电影-电影相关度矩阵,以及用户已有的评分,通过加权平均计算用户未评分电影的预估评分。例如用户对A电影评3分、B电影评4分、C电影未评分,而C电影与A电影、B电影的相关度分别为0.3和0.8,则C电影的预估评分为(0.3*3+0.8*4)/(0.3+0.8)。
然后,我们实现了一些创新的功能。首先,我们爬取网页当中电影的数据,对网页当中的电影数据进行分析,分类,确定不同类型电影的百分比。然后我们分析用户对不同类型电影的打分情况,运用同类分析的方法对用户进行推荐其可能感兴趣的电影