在Spark SQL执行etl时候会有最终结果大小只有几百k,但是小文件一个分区有上千的情况。危害: HDFS有最大文件数限制 浪费磁盘资源(可能存在空文件) Hive中进行统计,计算的时候,会产生很多个map,影响计算的速度 方法一:通过spark的coalesce()方法和repartition()方法 val rdd2 = rdd1.coalesce(8, true) (true表示是否shuffle) val rdd3 = rdd1.repartition(8) 说明:   coalesce:coalesce()方法的作用是返回指定一个新的指定分区的Rdd,如果是生成一个窄依赖的结果
2021-11-11 11:35:29 56KB ar ark coalesce
1
基于Spark 3.1.2,详细讲解了Spark Core、Spark SQL、Spark结构化流、Spark图计算(GraphX和GraphFrame)、数据湖技术及应用。
2021-11-10 18:11:44 8.34MB Spark 大数据 数据湖 Hadoop
1
概括性、总结性的对比Mapreduce、spark、storm,三者的特点,区别对比。
2021-11-09 16:10:29 22KB 大数据 spark
1
《大数据开发工程师系列:Hadoop & Spark大数据开发实战》
2021-11-09 09:07:20 162.77MB java
1
一个WordCount执行过程的实例 Map过程示意图
2021-11-08 20:01:02 3.06MB Hadoop Hive Spark Hbase
1
csv文件用java太麻烦了,spark很简单,简单到怀疑人生
2021-11-08 19:00:33 50KB csv 解析 spark scala
1
spark小项目(计算用户停留时间最长的两个小区)练习数据。
2021-11-08 16:41:59 725B spark
1
基于Spark的主成分分析和因子分析并行化的研究与实现.zip
2021-11-08 14:51:30 4.66MB java
1
实现html,spark-md5.js对文件进行md5的demo,将md5传至后端,进行文件比对,实现文件秒传功能
2021-11-08 10:15:25 34KB spark-md5 文件秒传
1
spark_HC-SR04_ultrasonic_sensor Dealextreme 的 HC-SR04_ultrasonic_sensor 的文件、代码和参考 在这里购买: : 我将它用于 Spark Core 项目。 您可以使用 spark-cli 编译项目: : 接线: Spark pin GND --> HC-SR04 GND Spark pin VIN --> HC-SR04 VCC !! Spark VIN NOT Spark 3V3 !! Spark D2 --> HC-SR04 TRIG Spark D4 --> HC-SR04 ECHO Also: Spark pin D5 --> Green Led anode (+), Green Led Cathode (-) --> Spark GND Spark pin D6 --> R
2021-11-07 18:38:56 3KB
1