sparkxgb.zip pyspark xgboost-spark python api
2022-09-12 16:05:11 7KB sparkxgb
1
spark-2.1.1-bin-hadoop2.7
2022-09-12 11:05:02 188.58MB spark-2.1.1
1
spark-3.1.1-bin-hadoop2.7
2022-09-12 11:05:01 210.02MB spark-3.1.1
1
spark-bench_2.3.0_0.4.0-RELEASE
2022-09-12 11:05:00 79.02MB spark-bench
1
hbase2.3.5+spark-3.0.3源码编译包
2022-09-04 09:06:16 496KB hbase
1
spark图书资料,适合新手学习,了解spark中的基本内容
2022-09-02 19:11:41 67.43MB 图书
1
大数据,spark项目,straming
2022-09-02 12:14:14 4.09MB 大数据spark
1
大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,以及各种专门术语,本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据。数据的计算则是指从大量单一数据点中提取信息和见解的过程。下文将介绍这些框架:仅批处理框架:
1
在shuffle操作的时候,是按照key来进行value的数据的输出,拉取和聚合的,同一个key的values,一定是分配到同一个reduce task进行处理的,假如多个key对应的value一共有90万条数据,但是可能某条key对应了88万条,其他key最多也就对应数万条数据,那么处理这88万条数据的reduce task肯定会特别耗费时间,甚至会直接导致OOM,这就是所谓的数据倾斜
2022-08-31 21:23:52 5.59MB Spark 数据倾斜 优化
1
spark-3.0.3 安装压缩包 Spark 是用于大规模数据处理的统一分析引擎。它提供了 Scala、Java、Python 和 R 中的高级 API,以及支持用于数据分析的通用计算图的优化引擎。
2022-08-30 18:00:10 214.35MB gtz spark 3.0.3
1