项目名称 电影推荐系统——烂豆瓣 项目目标 打开电影网站,脑袋就开始发大,动作片,爱情片,科幻片,中国的,欧美的,日韩的,到底哪一部最合自己的口味?茫茫影海,想要找到自己的“真爱”,谈何容易?我们知道你们找得辛苦,所以我们为你量身推荐电影! 项目任务 任务 具体任务 负责人 工作量 数据集 负责完成收集电影、用户以及评分数据集,并对数据进行清洗,建立新的数据结构。建立并维护系统数据库。 推荐引擎 负责完成推荐系统,包括基于用户历史数据的离线推荐系统以及收集用户实时行为数据,进行精准的实时推荐。 API服务 负责完成基于烂豆瓣各产品,面向开发者的开放接口(API)服务。在这里,开发者可以接入烂豆瓣电影推荐的优质内容,以及基于各种兴趣的用户关系。 web应用 负责完成一个电影推荐web应用,利用开发接口API以及酷炫的web前端页面,实现用户与推荐系统的完美交互。 数据集 本系统所需要的电影数
2023-04-02 17:05:18 21.19MB movies kafka spark spark-streaming
1
将该jar包上传至flume/lib目录下,并将spark-streaming-flume其他版本jar包删除即可使用,该jar包适用于spark2.1.3版本使用
2022-10-23 20:14:33 85KB spark 整合
1
实验五 Spark Streaming编程初级实践 1 实验目的 (1)实现文件流输入 (2)实现RDD队列流输入 (3)实现套接字流输入到mysql (4)实现kafka和Flume的安装以及将结果写入MySQL 2 实验平台 操作系统:Ubuntu16.04 数据库:MySQL Spark:2.4.0 Kafka:2.11 Flume:1.7.0 3 实验要求 1.文件流输入 2.RDD队列流输入 3.套接字流输入 4.kafka和Flume将结果写入MySQL 4 实验内容和步骤(操作结果要附图) 一、文件流输入 二、RDD队列流输入 三、套接字流 四、kafka和Flume将结果写入MySQL 5 实验总结
2022-09-23 09:06:27 3.52MB SparkStreaming
1
大数据,spark项目,straming
2022-09-02 12:14:14 4.09MB 大数据spark
1
Spark 项目流 org.apache.spark/spark-streaming_2.12/3.1.2/spark-streaming_2.12-3.1.2.jar
2022-05-31 11:23:52 1.09MB streaming processing distributed spark
1
一、实验目的 1.理解Spark Streaming的工作流程。 2.理解Spark Streaming的工作原理。 3.学会使用Spark Streaming处理流式数据。 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 三、实验内容 (一)Spark Streaming处理套接字流 1:编写处理套接字流的java程序代码 2:导入缺失的jar包 3:把java程序导出为jar包 4:start-all.sh,启动所有进程,并查看情况 5:启动Spark分布式集群并查看信息 6:启动9999端口 7:切换到jar包所在路径 8:提交程序到spark集群上运行 9:监测端口内容,每隔10秒钟输出一次,当有内容出现的时候,单词计数输出内容 10:退出监测,Ctrl+Z,但是这样并没有完全退出监测,到http://localhost:8080/里杀死该任务,也可以使用Ctrl+C完全退出 (二)Spark Streaming处理RDD队列流 (三)Spark Streaming处理文件流
2022-05-25 12:04:47 10.27MB hadoop spark 文档资料 大数据
spark-streaming-flume-sink_2.11-2.0.0.jar的jar包。
2022-05-18 20:07:43 85KB spark
1
运行saprk-streaming所需的jar包,spark-streaming-kafka-assembly_2.10-1.6.3.jar
2022-05-11 11:37:35 12.73MB spark jar
1
spark streaming 实时处理
2022-05-05 09:06:46 1.66MB spark 大数据 big data
1
spark streaming
2022-05-05 09:06:45 2.92MB spark 大数据 big data
1