搜索【spark 】的结果

基于hadoop和spark 架构大数据平台搭建 24页

基于hadoop+spark 架构大数据平台搭建基于hadoop+spark 架构大数据平台搭建基于hadoop+spark 架构大数据平台搭建

2021-11-13 09:33:23 166KB hadoop spark 搭建

1

spark安装.zip

适合大数据分析初学者，安装大数据分析工具spark，并用python语言测试（保姆级教学）。

2021-11-13 09:10:10 310.23MB spark安装 python测试

1

spark安装（含报告）.zip

适合大数据分析初学者，安装大数据分析工具spark，python语言测试（保姆级教学）。

2021-11-13 09:10:10 310.23MB spark安装 python测试

1

SparkSql和DataFrame实战.docx

文档主要介绍了环境搭建和配置使用 1. 什么是Spark SQL Spark SQL的一个用途是执行使用基本SQL语法或HiveQL编写的SQL查询。Spark SQL还可以用于从现有的Hive安装中读取数据。有关如何配置此功能的更多信息，请参考Hive表格部分。当从另一种编程语言中运行SQL时，结果将作为DataFrame返回。您还可以使用命令行或jdbc/odbc来与SQL接口进行交互。 2. 什么是DataFrame 一个以命名列组织的分布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据结构,但DataFrame有丰富的优化。在Spark 1.3之前，核心的新类型为RDD-schemaRDD,现改为DataFrame。spark 通过DataFrame操作大量的数据源，包括外部文件（如 json、avro、parquet、sequencefile 等等）、Hive、关系数据库、cassandra等

2021-11-11 16:08:14 908KB 大数据 spark DateFrame

1

Spark合并输出小文件

在Spark SQL执行etl时候会有最终结果大小只有几百k，但是小文件一个分区有上千的情况。危害： HDFS有最大文件数限制浪费磁盘资源（可能存在空文件） Hive中进行统计，计算的时候，会产生很多个map，影响计算的速度方法一：通过spark的coalesce()方法和repartition()方法 val rdd2 = rdd1.coalesce(8, true) （true表示是否shuffle） val rdd3 = rdd1.repartition(8) 说明： coalesce：coalesce()方法的作用是返回指定一个新的指定分区的Rdd，如果是生成一个窄依赖的结果

2021-11-11 11:35:29 56KB ar ark coalesce

1

Spark实用教程_v3.1.2_预览版.pdf

基于Spark 3.1.2，详细讲解了Spark Core、Spark SQL、Spark结构化流、Spark图计算（GraphX和GraphFrame）、数据湖技术及应用。

2021-11-10 18:11:44 8.34MB Spark 大数据 数据湖 Hadoop

1

hadoop、storm、spark的区别对比

概括性、总结性的对比Mapreduce、spark、storm，三者的特点，区别对比。

2021-11-09 16:10:29 22KB 大数据 spark

1

《大数据开发工程师系列：Hadoop & Spark大数据开发实战》

2021-11-09 09:07:20 162.77MB java

1

一个WordCount执行过程的实例-Hadoop,Hive,Hbase等框架详解

一个WordCount执行过程的实例 Map过程示意图

2021-11-08 20:01:02 3.06MB Hadoop Hive Spark Hbase

1

spark解析csv文件，存入数据库

csv文件用java太麻烦了，spark很简单，简单到怀疑人生

2021-11-08 19:00:33 50KB csv 解析 spark scala

1

个人信息

热门下载

最新下载

其他资源