本实验报告为厦门大学计算机科学系 林子雨 博士/助理教授《大数据处理技术Spark》课程在学期结束后的“大作业”。Spark课程实验案例:淘宝双11数据分析与预测课程案例,由厦门大学数据库实验室团队开发,旨在满足全国高校大数据教学对实验案例的迫切需求。本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等系统和软件的安装和使用方法。本报告含实验环境、实验内容、实验内容截图、遇到的问题及解决方案、心得体会。
2022-06-17 09:10:49 4.82MB 大数据 Spark Linux MySQL
博客文章: https://blog.csdn.net/lm19770429/article/details/124221123 https://blog.csdn.net/lm19770429/article/details/124981430
2022-06-16 09:08:45 18.91MB spark 大数据
1
apache-hive-3.1.3-bin.tar.gz apache-zookeeper-3.5.10-bin.tar.gz hadoop-3.3.3.tar.gz spark-3.2.1-bin-hadoop3.2.tgz
2022-06-15 21:05:10 623.38MB 大数据
1
apache-hive-3.1.3-bin.tar.gz apache-zookeeper-3.5.10-bin.tar.gz hadoop-3.3.3.tar.gz spark-3.2.1-bin-hadoop3.2.tgz
2022-06-15 21:05:09 599.82MB 大数据
1
本篇博客,Alice为大家带来关于如何搭建Spark的on yarn集群模式的教程。 文章目录准备工作cluster模式client模式[了解]两种模式的区别 官方文档: http://spark.apache.org/docs/latest/running-on-yarn.html 准备工作 安装启动Hadoop(需要使用HDFS和YARN,已经ok) 安装单机版Spark(已经ok) 注意:不需要集群,因为把Spark程序提交给YARN运行本质上是把字节码给YARN集群上的JVM运行,但是得有一个东西帮我去把任务提交上个YARN,所以需要一个单机版的Spark,里面的有spark-sh
2022-06-15 09:15:45 387KB ar ark hadoop
1
spark-2.4.6-cdh5.16.2
2022-06-14 19:08:04 258.06MB spark
1
spark相关jar包
2022-06-14 19:08:04 252.23MB spark
1
GP_connector jar 包
2022-06-13 18:06:52 3.52MB spark-data-trans
1
ImplaJDBC , 用于 Impala客户端链接代码。
2022-06-13 18:06:52 1.49MB spark-data-trans
1
在本篇文章,作者将讨论机器学习概念以及如何使用SparkMLlib来进行预测分析。后面将会使用一个例子展示SparkMLlib在机器学习领域的强悍。Spark机器学习API包含两个package:spark.mllib和spark.ml。spark.mllib包含基于弹性数据集(RDD)的原始Spark机器学习API。它提供的机器学习技术有:相关性、分类和回归、协同过滤、聚类和数据降维。spark.ml提供建立在DataFrame的机器学习API,DataFrame是SparkSQL的核心部分。这个包提供开发和管理机器学习管道的功能,可以用来进行特征提取、转换、选择器和机器学习算法,比如分类和
1