大数据,spark项目,straming
2022-09-02 12:14:14 4.09MB 大数据spark
1
大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,以及各种专门术语,本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据。数据的计算则是指从大量单一数据点中提取信息和见解的过程。下文将介绍这些框架:仅批处理框架:
1
在shuffle操作的时候,是按照key来进行value的数据的输出,拉取和聚合的,同一个key的values,一定是分配到同一个reduce task进行处理的,假如多个key对应的value一共有90万条数据,但是可能某条key对应了88万条,其他key最多也就对应数万条数据,那么处理这88万条数据的reduce task肯定会特别耗费时间,甚至会直接导致OOM,这就是所谓的数据倾斜
2022-08-31 21:23:52 5.59MB Spark 数据倾斜 优化
1
spark-3.0.3 安装压缩包 Spark 是用于大规模数据处理的统一分析引擎。它提供了 Scala、Java、Python 和 R 中的高级 API,以及支持用于数据分析的通用计算图的优化引擎。
2022-08-30 18:00:10 214.35MB gtz spark 3.0.3
1
SparkDemo, spark示例代码,有一些生产实践 SparkDemo我们还提供了一些实际的案例,这些案例是对真实场景的抽象,展示了一个实际项目开发需要考虑的问题,这些案例经过了充分测试,读者完全可以在实际项目中参考。hadoop: 2.6.0火花:1.6.1集群的搭建方式
2022-08-27 22:26:41 7.06MB 开源
1
cdh环境中的spark不支持sparksql,现必须用到sparksql编译spark源码获取spark-assembly包替换即可完成
2022-08-26 10:45:53 191.26MB cdh sparksql
1
用datagrip链接spark thirft 新建驱动加载所用sparkjar包 亲测好用
2022-08-24 14:07:24 205.66MB spark thirft
1
Spark案例:电影推荐案例相关资料,数据
2022-08-22 14:05:08 3.98MB spark
1
本书详细介绍如何利用Spark Graph组件进行图计算,并依托项目背景,对Spark图计算进行深入研究,适合Spark爱好者进行阅读
2022-08-21 09:55:20 72.38MB 大数据 Spark 图计算
1
big data hive spark
2022-08-17 14:05:37 31.58MB spark hive hdfs
1