本篇博客,Alice为大家带来关于如何搭建Spark的on yarn集群模式的教程。 文章目录准备工作cluster模式client模式[了解]两种模式的区别 官方文档: http://spark.apache.org/docs/latest/running-on-yarn.html 准备工作 安装启动Hadoop(需要使用HDFS和YARN,已经ok) 安装单机版Spark(已经ok) 注意:不需要集群,因为把Spark程序提交给YARN运行本质上是把字节码给YARN集群上的JVM运行,但是得有一个东西帮我去把任务提交上个YARN,所以需要一个单机版的Spark,里面的有spark-sh
2022-06-15 09:15:45 387KB ar ark hadoop
1
spark-2.4.6-cdh5.16.2
2022-06-14 19:08:04 258.06MB spark
1
spark相关jar包
2022-06-14 19:08:04 252.23MB spark
1
Hadoop培训讲义(3天课程),内容包括大数据概述、HBase、Hive、HDFS 、MapReduce等
2022-06-14 11:07:32 53.54MB Hadoop培训 HBase Hive HDFS
1
里面包含着所有的项目源码,图片资源和课程学习安排文档,我们可以根据每天浏览某网站的人数和访客量来判断该网站的好坏和受欢迎程度, 同时也可以根据外链的跳转率和访客或会员所用的浏览器等工具的分析来进行精准的广告推广,我们也可以根据地区的点击量和访客或是会员访问的时间的分析来进行合理的商品推广、精准推荐等操作
2022-06-14 11:06:40 7.25MB 大数据 hadoop 数据分析 实战项目
1
GP_connector jar 包
2022-06-13 18:06:52 3.52MB spark-data-trans
1
ImplaJDBC , 用于 Impala客户端链接代码。
2022-06-13 18:06:52 1.49MB spark-data-trans
1
在本篇文章,作者将讨论机器学习概念以及如何使用SparkMLlib来进行预测分析。后面将会使用一个例子展示SparkMLlib在机器学习领域的强悍。Spark机器学习API包含两个package:spark.mllib和spark.ml。spark.mllib包含基于弹性数据集(RDD)的原始Spark机器学习API。它提供的机器学习技术有:相关性、分类和回归、协同过滤、聚类和数据降维。spark.ml提供建立在DataFrame的机器学习API,DataFrame是SparkSQL的核心部分。这个包提供开发和管理机器学习管道的功能,可以用来进行特征提取、转换、选择器和机器学习算法,比如分类和
1
core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml yarn-env.sh workers hadoop-env.sh activation-1.1.1.jar #涉及的参数,只需要根据自己的情况,适当更改即可,本人亲测有效! 试用hadoop-3.1.1版本。
2022-06-13 13:05:36 73KB hadoop配置文件
1
1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介.pdf 6.SparkSQL(下)--Spark实战应用.pdf 6.SparkSQL(中)--深入了解运行计划及调优.pdf 7.SparkStreaming(上)--SparkStreaming原理介绍.pdf 7.SparkStreaming(下)--SparkStreaming实战.pdf 8.SparkMLlib(上)--机器学习及SparkMLlib简介.pdf 8.SparkMLlib(下)--SparkMLlib实战.pdf 9.SparkGraphX介绍及实例.pdf 10.分布式内存文件系统Tachyon介绍及安装部署.pdf
2022-06-13 10:32:29 1.28MB hadoop spark java hive
1