高维海量数据集离群点挖掘算法研究及其应用.pdf
2022-07-12 14:08:02 7.23MB 文档资料
应用数据挖掘算法研究多发性硬化症基因表达谱.pdf
2022-07-11 19:13:43 2.17MB 文档资料
图数据中频繁模式挖掘算法研究综述.pdf
2022-07-11 14:12:42 447KB 文档资料
关联规则挖掘算法及其在购物篮分析中的应用研究.pdf
2022-07-11 09:11:29 3.72MB 文档资料
可视化空间聚类挖掘算法及系统实现.pdf
2022-07-10 18:00:29 605KB 计算机
为了提高大数据环境下的数据挖掘速度,对分布式计算构架Hadoop进行分析与研究,提出一种基于Hadoop平台的大数据关联规则挖掘算法MRPrePost。该算法在PrePost算法基础上改进而来,采用Hadoop平台降低分布式编程的难度且易于管理,通过一种自底向上的深度优化策略改进PrePost算法,降低内存开销,同时采用负载均衡的分组策略,来提高并行算法的性能,最终试验表明,该算法运行速度快,适应大数据关联规则挖掘。
1
随着移动智能操作系统技术的突破,智能手机的普及,移动互联网时代的到来,web app每天都在产生TB甚至PB级的web日志,如何从这些海量日志信息中提取用户的个人爱好及其他信息,为用户提供个性化推荐服务,为人们的生活带来便利,成为各大互联网公司和科研机构研究人员的研究热点。由于开源云计算平台Hadoop的出现,解决海量web日志信息的数据挖掘成为可能。 本文的研究内容主要包含以下几个方面: 一、对Hadoop云计算平台进行研究。Hadoop是Apache下的顶级开源项目,该平台能够利用成千上万的廉价计算机提供并行计算与存储服务。本文主要深入研究了Hadoop平台下的HDFS分布式文件系统,并行编程模型MapReduce,分布式列型存储数据库HBase。 二、对聚类分析进行研究。聚类分析是数据挖掘中应用极为广泛的一类,本文主要研究了聚类分析的起源、定义和样本相似距离,并详细介绍了聚类分析的常用方法。 三、基于Hadoop平台,设计并实现了数据挖掘系统,.,系统封装了底层的Hadoop系统接口,提供了本文介绍的几种聚类算法服务。系统自顶向下的逻辑层次分别为用户层、服务引擎层、挖掘引擎层、底层Hadoop驱动层。 四、研究分析了K-Means和PAM聚类算法
2022-06-28 21:06:42 9.23MB Hadoop 数据挖掘 算法
1
数据挖掘十大算法思维导图:(1)聚类:k-Means;(2)分类:C4.5、kNN、Naive Bayes、CART;(3) Bagging and Boosting:AdaBoost;(4) 统计学习:SVM、EM;(5)链接挖掘:PageRank;(6)关联分析:Apriori。
2022-06-08 18:43:48 61KB 数据挖掘 算法 思维导图
1
关联规则挖掘算法探究论文.pdf
2022-06-04 18:01:36 558KB 算法 文档资料 资料
频繁子图挖掘算法gSpan的设计与实现.doc
2022-05-31 14:06:02 789KB 算法 文档资料
服务器状态检查中...