基于hadoop+spark 架构大数据平台搭建 基于hadoop+spark 架构大数据平台搭建 基于hadoop+spark 架构大数据平台搭建
2021-11-13 09:33:23 166KB hadoop spark 搭建
1
适合大数据分析初学者,安装大数据分析工具spark,并用python语言测试(保姆级教学)。
2021-11-13 09:10:10 310.23MB spark安装 python测试
1
适合大数据分析初学者,安装大数据分析工具spark,python语言测试(保姆级教学)。
2021-11-13 09:10:10 310.23MB spark安装 python测试
1
基于ClickHouse的 实时分析引擎应用实践
2021-11-11 16:09:47 1MB ClickHouse 实践 优化
1
文档主要介绍了环境搭建和配置使用 1. 什么是Spark SQL Spark SQL的一个用途是执行使用基本SQL语法或HiveQL编写的SQL查询。Spark SQL还可以用于从现有的Hive安装中读取数据。有关如何配置此功能的更多信息,请参考Hive表格部分。当从另一种编程语言中运行SQL时,结果将作为DataFrame返回。您还可以使用命令行或jdbc/odbc来与SQL接口进行交互。 2. 什么是DataFrame 一个以命名列组织的分布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据结构,但DataFrame有丰富的优化。在Spark 1.3之前,核心的新类型为RDD-schemaRDD,现改为DataFrame。spark 通过DataFrame操作大量的数据源,包括外部文件(如 json、avro、parquet、sequencefile 等等)、Hive、关系数据库、cassandra等
2021-11-11 16:08:14 908KB 大数据 spark DateFrame
1
在Spark SQL执行etl时候会有最终结果大小只有几百k,但是小文件一个分区有上千的情况。危害: HDFS有最大文件数限制 浪费磁盘资源(可能存在空文件) Hive中进行统计,计算的时候,会产生很多个map,影响计算的速度 方法一:通过spark的coalesce()方法和repartition()方法 val rdd2 = rdd1.coalesce(8, true) (true表示是否shuffle) val rdd3 = rdd1.repartition(8) 说明:   coalesce:coalesce()方法的作用是返回指定一个新的指定分区的Rdd,如果是生成一个窄依赖的结果
2021-11-11 11:35:29 56KB ar ark coalesce
1
clickhouse-jdbc-0.3.1.jar
2021-11-10 20:03:26 352KB clickhouse
1
基于Spark 3.1.2,详细讲解了Spark Core、Spark SQL、Spark结构化流、Spark图计算(GraphX和GraphFrame)、数据湖技术及应用。
2021-11-10 18:11:44 8.34MB Spark 大数据 数据湖 Hadoop
1
概括性、总结性的对比Mapreduce、spark、storm,三者的特点,区别对比。
2021-11-09 16:10:29 22KB 大数据 spark
1
《大数据开发工程师系列:Hadoop & Spark大数据开发实战》
2021-11-09 09:07:20 162.77MB java
1