SparkSQL是apache Spark用来处理结构化数据的一个模块,SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具。这个资料包,包含了sparkSQL底层实现原理+sparkSQL调优两个部分。还提供了代码实例。 SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具。 SparkSQL作为Spark生态的一员,而不再受限于Hive,只是兼容Hive;而Hive on Spark是一个Hive的发展计划,该计划将Spark作为Hive的底层引擎之一,也就是说,Hive将不再受限于一个引擎,可以采用Map-Reduce、Tez、Spark等引擎。 对于开发人员来讲,SparkSQL可以简化RDD的开发,提高开发效率,且执行效率非常快,所以实际工作中,基本上采用的就是SparkSQL。Spark SQL为了简化RDD的开发,提高开发效率,提供了2个编程抽象,类似Spark Core中的RDD,即DataFrame和DataSet。
2022-10-08 14:05:45 29.17MB spark sparkSql 实现原理 大数据
1
从大数据当前面临的挑战、粒计算作为大数据的新的研究方向、粒计算的研究现状等方面对基于粒计算的大数据处理分析进行了讨论。高度信息化的时代背景下,大数据的处理分析必将成为为社会进步与发展提供有效帮助的科技手段,如何提高大数据的处理分析,提升粒计算的性能都是必须要考虑的问题,对解决实际问题有着重要的参考价值。不断提高大数据的相关技术,对各行各业的发展都有着积极的意义
2022-10-08 09:05:42 1.2MB 粒计算
1
图解大数据 | 使用 Spark 分析挖掘音乐专辑数据 @综合案例
2022-10-07 09:06:58 2.55MB spark
1
大数据架构师指南-高清书签文字版。 这个是带完整书签目录的pdf文字版本。内容可以复制的,非常好的资源,值得收藏备阅。
2022-10-06 18:52:27 27.57MB 大数据 架构 文字版 书签版
1
进入信息化时代以来,银行的生存环境发生了巨大的变化,信息化建设和大数据的应用,已经成为银行业竞争的一个筹码,也是获得竞争优势的一个方法。银行业按照形态,分为农村商业银行和城市商业银行两类。这次先随传说哥一起探讨农商行信息化的现状和问题。
2022-10-05 00:30:14 136KB 大数据 信息化
1
代码都能直接用,可以改成自己需要的,应付一下老师的作业没有问题,代码浅显易懂,如果足迹三需要修改可视化结果,可以参考压缩包里面的"作业三说明.txt"。 更改数据集后,直接运行代码,即可让运行结果变成你需要的样子。 注意还可以更改颜色,更美观一点。
2022-10-04 20:48:41 1.85MB 大数据可视化 python
1
清华大学 大数据思维与决策 讲义 PPT,了解大数据前瞻性的一些知识和概念
2022-10-03 17:07:42 9.84MB 大数据
1
基于大数据分析的网络攻击检测-奇虎360谭晓生-CNCC
2022-10-03 16:33:15 2.47MB 大数据
1
本文详细介绍了在虚拟机中Hadoop安装与配置。文中介绍了Linux的基本命令,静态 IP 地址的配置、主机名和域名映射的修改、防火墙的关闭与打开;在 Linux 环境下 Java和Hadoop的安装、相关环境变量的配置、基本命令的使用;为何需要配置 SSH 免密登录,掌握 Linux 环境下 SSH 的安装、免密登录的配置;在 Linux 环境下如何部署全分布模式 Hadoop 集群。 实验的软硬件环境包括 PC、VMware Workstation Pro、CentOS7 安装包、Oracle JDK1.8.0_144安装包、Hadoop-2.7.2 安装包。 本文主要面对学习Hadoop的在校大学生以及社会上的学习者,本文用保姆级别的详细步骤带给读者极致的学习体验。
2022-10-01 11:04:40 2.08MB linux centos 大数据 hadoop
1