1、25个经典Spark算子的JAVA实现。2、含有详细的注释。3、全部通过junit测试。
2023-11-24 07:02:50 42KB Spark算子 Java实现 Operation
1
计算机毕业设计之Spark+Flink+Python考研预测分析考研院校推荐系统考研大数据分析大屏.zip
2023-11-22 11:09:39 7.98MB python
1
spark-graphx实现中文及英文pdf版本电子书。详细地讲解了GraphX的方方面面,并且还介绍了scala和spark的各个知识点,从spark基础知识、scala基础知识、图基础知识开始讲解,是一本很好的GraphX入门书籍
2023-11-14 21:34:12 78.7MB spark-graphx
1
大数据技术与应用专业2023届毕业设计选题.xlsx
2023-11-10 09:52:21 89KB 大数据分析 Hadoop spark 毕业设计
1
spark学习资料大全,文档,代码,ppt 从入门到精通,资料大全 spark2.0 spark源代码 Spark源码解读迷你书 深入理解Spark:核心思想与源码分析 Spark MLlib机器学习:算法、源码及实战详解试读
2023-11-06 13:29:41 78.05MB spark培训
1
spark/hadoop 教程,按照步骤一步步操作晋级,包括环境搭建,基本操作介绍及演示等 spark/hadoop 教程,按照步骤一步步操作晋级,包括环境搭建,基本操作介绍及演示等 spark/hadoop 教程,按照步骤一步步操作晋级,包括环境搭建,基本操作介绍及演示等
2023-10-27 15:55:44 17.35MB spark hadoop
1
canal 同步数据 从mysql到kafka
2023-10-19 16:08:19 167.91MB canal
1
【大数据+spark+数据清洗】hotel_data 学习大数据清洗的数据 对应文章:https://blog.csdn.net/weixin_44018458/article/details/128980802 数据内容: 省份,城市,商圈,星级,业务部门,房间数,图片数,评分,评论数,城市平均实住间夜,酒店总订单,酒店总间夜,酒店实住订单,酒店实住间夜,酒店直销订单,酒店直销间夜,酒店直销实住订单,酒店直销实住间夜,酒店直销拒单,酒店直销拒单率,城市直销订单,城市直销拒单率,拒单率是否小于等于直销城市均值 aba_2066,马尔康嘉绒大酒店,中国,四川,阿坝,NULL,四星级/高档,OTA,85,NULL,4.143799782,108,34.06,45,75,22,44,NULL,NULL,NULL,NULL,NULL,NULL,34147,7.90%,0 aba_2069,阿坝马尔康县澜峰大酒店,中国,四川,阿坝,NULL,二星及其他,低星,115,NULL,3.977930069,129,34.06,35,72,27,59,34,71,27,59,6,17.65%,34
1
kafka manager可视化管控台压缩包
2023-10-07 00:09:14 92.23MB kafka kafka
1
Spark-Core文档是本人经三年总结笔记汇总而来,对于自我学习Spark核心基础知识非常方便,资料中例举完善,内容丰富。具体目录如下: 目录 第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark历史 4 4 BDAS生态系统 4 5 Spark与Hadoop的差异 5 6 Spark的适用场景 6 7 Spark成功案例 6 第二章 Spark开发环境搭建 8 1 Spark运行模式 8 2 Spark环境搭建 8 2.1Scala的安装 8 2.2Spark的单节点配置 9 2.3Spark-Standalone集群配置 9 2.4Spark-on-Yarn模式配置 12 2.5Spark-on-Mesos模式配置 13 2.6Hive-on-Spark配置 13 第三章 Spark计算模型 15 1 RDD编程 15 1.1弹性分布式数据集RDD 15 1.2构建RDD对象 15 2RDD操作 15 2.1将函数传递给Spark 16 2.2了解闭包 16 2.3Pair RDD模型 17 2.4Spark常见转换操作 18 2.5Spark常见行动操作 20 2.6RDD持久化操作 21 2.7注意事项 23 2.7并行度调优 24 2.8分区方式 25 3Examle:PageRank 27 第四章 Spark编程进阶 29 1共享变量 29 1.1累加器 30 1.2广播变量 31 2基于分区进行操作 32 3与外部程序间的管道 33 4数值RDD的操作 34 5 Spark Shuffle机制 34 第五章 Spark调优与调试 39 1开发调优: 40 1.1调优概述 40 1.2原则一:避免创建重复的RDD 40 1.3原则二:尽可能复用同一个RDD 41 1.4原则三:对多次使用的RDD进行持久化 42 1.5原则四:尽量避免使用shuffle类算子 43 1.6原则五:使用map-side预聚合的shuffle操作 44 1.7原则六:使用高性能的算子 45 1.8原则七:广播大变量 46 1.9原则八:使用Kryo优化序列化性能 47 1.10原则九:优化数据结构 48 2资源调优 48 2.1调优概述 48 2.2 Spark作业基本运行原理 49 2.3资源参数调优 50 第六章 Spark架构和工作机制 52 1 Spark架构 52 1.1 Spark架构组件简介 52 1.2 Spark架构图 54 2 Spark工作机制 54 2.1 Spark作业基本概念 54 2.2 Spark程序与作业概念映射 55 2.3 Spark作业运行流程 55 3 Spark工作原理 55 3.1 作业调度简介 55 3.2 Application调度 56 3.3 Job调度 56 3.4 Tasks延时调度 56 第七章 Spark运行原理 57 1 Spark运行基本流程 57 2 Spark在不同集群中的运行架构 58 2.1 Spark on Standalone运行过程 59 2.2 Spark on YARN运行过程 60
2023-09-26 13:01:48 6.54MB Spark 初学者 大数据 资料归档
1