spark高可用集群(自动切换方式)搭建手册,spark高可用集群(自动切换方式)搭建手册
2023-03-29 13:59:09 324KB spark 高可用集群 部署
1
一.网络爬虫 二.Kafka与MySQL的组合使用 访问豆瓣电影Top250,将获取到的信息保存至本地文件中或者数据库中,访问微博热搜榜,并将获取到的数据通过邮件的形式,每20秒发送一次到个人邮箱中。 读取student表的数据内容,将其转为JSON格式,发送给Kafka; 再从Kafka中获取到JSON格式数据,打印出来。 编写生产者程序,将json文件数据发送给Kafka; 编写消费者程序,读取Kafka的json文件数据,并手动提交偏移量。 编写生产者程序,以通用唯一标识符UUID作为消息,发送给主题assign_topic; 编写消费者程序1,订阅主题的分区0,只消费分区0数据; 编写消费者程序2,订阅主题的分区1,只消费分区1数据;
2023-03-26 20:27:13 4.77MB 爬虫 文档 数据采集
1
Linux下的spark安装包,Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎 。现在形成一个高速发展应用广泛的生态系统。可和scala2.13.2兼容
2023-03-20 16:20:53 14.93MB spark-2.4.5
1
<数据算法--Hadoop-Spark大数据处理技巧>.pdf全书686页,英文比中文容易理解 本资料共包含以下附件: 724f58d66ab6b3c4c6412e91117878cb.zip
2023-03-20 11:11:06 36.93MB 大数据 spark
1
spark-assembly-1.3.0-hadoop2.5.0-cdh5.3.0.jar的下载地址和提取码
2023-03-16 15:35:01 45B spark-sql hadoop spark-yarn
1
项目需求:将kafka解析来的日志获取到数据库的变更记录,按照订单的级别和订单明细级别写入数据库,一条订单的所有信息包括各种维度信息均保存在一条json中,写入mysql5.7中。 配置信息: [Global] kafka_server=xxxxxxxxxxx:9092 kafka_topic=mes consumer_group=test100 passwd = tracking port = 3306 host = xxxxxxxxxx user = track schema = track dd_socket = dd_host = xxxxxxxxxxxx dd_port = 330
2023-03-09 17:34:28 109KB info js json
1
spark2.4.8编译支持 hadoop3.3.3 和 hive2
2023-03-08 21:08:34 219.89MB spark hadoop3
1
自己研究学习大数据spark 整合 spring , mybati,maven写的例子,自己测试没有问题了,分享一下,有问题请拍砖。
2023-03-07 19:29:30 22.94MB spring mybatis spark mysql
1
Spark中动态分区算法的设计与实现,阎逸飞,王智立,Spark是一种被广泛使用的分布式计算框架。在分布式环境中,一个重要且常见的问题是数据倾斜。为解决Spark shuffle过程中中间数据倾斜导
2023-03-06 18:25:19 480KB 计算机系统结构
1
HDP3.1.5自定义服务Kylin4.0.1 spark3.1.1的statck包
2023-03-02 13:00:51 1.49MB ambari kylin spark
1