里面包含着所有的项目源码,图片资源和课程学习安排文档,我们可以根据每天浏览某网站的人数和访客量来判断该网站的好坏和受欢迎程度, 同时也可以根据外链的跳转率和访客或会员所用的浏览器等工具的分析来进行精准的广告推广,我们也可以根据地区的点击量和访客或是会员访问的时间的分析来进行合理的商品推广、精准推荐等操作
2022-06-14 11:06:40 7.25MB 大数据 hadoop 数据分析 实战项目
1
GP_connector jar 包
2022-06-13 18:06:52 3.52MB spark-data-trans
1
ImplaJDBC , 用于 Impala客户端链接代码。
2022-06-13 18:06:52 1.49MB spark-data-trans
1
在本篇文章,作者将讨论机器学习概念以及如何使用SparkMLlib来进行预测分析。后面将会使用一个例子展示SparkMLlib在机器学习领域的强悍。Spark机器学习API包含两个package:spark.mllib和spark.ml。spark.mllib包含基于弹性数据集(RDD)的原始Spark机器学习API。它提供的机器学习技术有:相关性、分类和回归、协同过滤、聚类和数据降维。spark.ml提供建立在DataFrame的机器学习API,DataFrame是SparkSQL的核心部分。这个包提供开发和管理机器学习管道的功能,可以用来进行特征提取、转换、选择器和机器学习算法,比如分类和
1
core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml yarn-env.sh workers hadoop-env.sh activation-1.1.1.jar #涉及的参数,只需要根据自己的情况,适当更改即可,本人亲测有效! 试用hadoop-3.1.1版本。
2022-06-13 13:05:36 73KB hadoop配置文件
1
1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介.pdf 6.SparkSQL(下)--Spark实战应用.pdf 6.SparkSQL(中)--深入了解运行计划及调优.pdf 7.SparkStreaming(上)--SparkStreaming原理介绍.pdf 7.SparkStreaming(下)--SparkStreaming实战.pdf 8.SparkMLlib(上)--机器学习及SparkMLlib简介.pdf 8.SparkMLlib(下)--SparkMLlib实战.pdf 9.SparkGraphX介绍及实例.pdf 10.分布式内存文件系统Tachyon介绍及安装部署.pdf
2022-06-13 10:32:29 1.28MB hadoop spark java hive
1
1,商城:是单商家,多买家的商城系统。数据库是mysql,语言java。2,sqoop1.9.33:在mysql和hadoop中交换数据。3,hadoop2.2.0:这里用于练习的是伪分布模式。4,完成内容:喜欢该商品的人还喜欢,相同购物喜好的好友推荐。1,通过sqoop从mysql中将“用户收藏商品”(这里用的是用户收藏商品信息表作为推荐系统业务上的依据,业务依据可以很复杂。这里主要介绍推荐系统的基本原理,所以推荐依据很简单)的表数据导入到hdfs中。2,用MapReduce实现推荐算法。3,通过sqoop将推荐系统的结果写回mysql。4,java商城通过推荐系统的数据实现<喜欢该商品的人
2022-06-13 00:50:18 429KB hadoop实现购物商城推荐系统
1
完整的Hadoop分布式文件系统架构,以及源码分析报告
2022-06-12 17:17:34 528KB Hadoop
1
Hadoop安装和配置,Hadoop安装和配置,Hadoop安装和配置
2022-06-12 16:14:29 15KB HADOOP 大数据 hadoop安装 hadoop配置
1
云计算大作业使用Hadoop对美国新冠肺炎疫情数据分析项目。 实验内容 统计指定日期下,美国每个州的累计确诊人数和累计死亡人数。 对实验1的结果按累计确诊人数进行倒序排序。(重写排序规则) 对实验1的结果再运算,统计截止指定日期,全美各州的病死率。病死率 = 死亡数/确诊数。 统计美国截止每日的累计确诊人数和累计死亡人数。做法是以date作为分组字段,对cases和deaths字段进行汇总统计。 对实验4的结果再运算,统计美国每日的新增确诊人数和新增死亡人数。因为新增数=今日数-昨日数,所以考虑使用自连接,连接条件是t1.date = t2.date + 1,然后使用t1.totalCases – t2.totalCases计算该日新增。 对实验4的结果再运算,统计美国截止当日的病死率。 将美国不同州的疫情数据输出到不同文件,属于同一个州的各个县输出到同一个结果文件中。(重写排序规则,重写分区规则)。 统计指定日期下,美国每个州的确诊案例最多前N(TopN)的县。(重写排序规则,重写分组规则)