项目主要内容:
1.采用Hadoop作为分布式文件文件系统存储数据
2.基于 TensorFlow 复现论文 PNN、DeepFM
3.搭建推荐系统架构,召回、过滤、精排阶段
4.使用 SparkStreaming 进行流计算,不断将用户行为反馈给模型进行计算,提供
下一次推荐服务
5.使用 SparkStreaming 对接 Kafka 源,消费 Kafka 中的实时用户行为数据
6.使用 PNN、DeepFM 进行 CTR 点击评估
目前,几大互联网厂商例如腾讯、百度、阿里已陆续开始使用推荐系统,因为在海量数据的今天,人们已经无法看清自己真正的喜好,所以推荐系统应运而生,像现在快手、抖音等平台都陆续开始引进推荐系统,这些厂商会收集大量用户的观看行为,例如点赞、评论、收藏以及视频观看时间等,基于这些数据会对用户进行分析,帮助用户进行定位自身的兴趣所在,然后基于大数据平台帮助用户拿到它们想要的视频,而且包括百度,它们正在使用广告推荐这种,当我们在搜索引擎中搜索一些关键词时,它们将会根据 query 进行分析进而将一些广告商进行关联,然后在首页为用户推荐一些广告进而增加广告的点击量。