随着移动智能操作系统技术的突破,智能手机的普及,移动互联网时代的到来,web app每天都在产生TB甚至PB级的web日志,如何从这些海量日志信息中提取用户的个人爱好及其他信息,为用户提供个性化推荐服务,为人们的生活带来便利,成为各大互联网公司和科研机构研究人员的研究热点。由于开源云计算平台Hadoop的出现,解决海量web日志信息的数据挖掘成为可能。 本文的研究内容主要包含以下几个方面: 一、对Hadoop云计算平台进行研究。Hadoop是Apache下的顶级开源项目,该平台能够利用成千上万的廉价计算机提供并行计算与存储服务。本文主要深入研究了Hadoop平台下的HDFS分布式文件系统,并行编程模型MapReduce,分布式列型存储数据库HBase。 二、对聚类分析进行研究。聚类分析是数据挖掘中应用极为广泛的一类,本文主要研究了聚类分析的起源、定义和样本相似距离,并详细介绍了聚类分析的常用方法。 三、基于Hadoop平台,设计并实现了数据挖掘系统,.,系统封装了底层的Hadoop系统接口,提供了本文介绍的几种聚类算法服务。系统自顶向下的逻辑层次分别为用户层、服务引擎层、挖掘引擎层、底层Hadoop驱动层。 四、研究分析了K-Means和PAM聚类算法
2022-06-28 21:06:42 9.23MB Hadoop 数据挖掘 算法
1
里面包含着所有的项目源码,图片资源和课程学习安排文档,我们可以根据每天浏览某网站的人数和访客量来判断该网站的好坏和受欢迎程度, 同时也可以根据外链的跳转率和访客或会员所用的浏览器等工具的分析来进行精准的广告推广,我们也可以根据地区的点击量和访客或是会员访问的时间的分析来进行合理的商品推广、精准推荐等操作
2022-06-14 11:06:40 7.25MB 大数据 hadoop 数据分析 实战项目
1
Hive优化(思维导图)
2022-06-06 19:09:19 43KB hive hadoop 数据仓库 大数据
1
spark-3.2.0-bin-hadoop3-without-hive
2022-06-06 13:22:41 173.18MB hive spark hadoop 数据仓库
1
sql for hive 常用的sql使用
2022-06-03 19:07:25 30KB hive sql hadoop 数据仓库
1
hive自定义函数demo
2022-05-30 14:05:56 98KB hive 源码软件 hadoop 数据仓库
1
hive面试题,Hive高频面试题
2022-05-26 13:03:14 152KB hive 综合资源 hadoop 数据仓库
1
hive监控巡检优化文档
2022-05-25 14:07:43 145KB hive 文档资料 hadoop 数据仓库
1
数据包括运行代码和数据类型,启动hive导入表和数据就可以运行结果
2022-05-24 14:07:03 98.23MB hive 源码软件 hadoop 数据仓库
尚硅谷 hive 课程教学文档
2022-05-23 19:06:20 823KB hive 文档资料 hadoop 数据仓库
1