K-means算法处理海量数据时,易产生系统内存溢出的现象。利用MapReduce框架改进K-means虽然解决了这个问题,但也存在着聚类效果不稳定以及准确率不高等问题,提出一种改进算法,利用MapReduce框架实现K-means时,采用多次随机抽样,通过计算密度、距离与平方误差等方法,最终选取较优的初始聚类中心,并在迭代中采用新的中心点计算方法。实验结果证明,改进后的算法具有较好的稳定性、准确性和加速比。
2022-04-07 14:54:55 630KB 论文研究
1
MapReduce 使用 Hadoop 实现随机过采样、随机欠采样和“合成少数过采样技术”(SMOTE)算法 大数据的随机过采样:MapReduce 的近似 随机过采样 (ROS) 算法已适应于遵循 MapReduce 设计来处理大数据,其中每个 Map 进程负责通过少数类实例的随机复制来调整映射器分区中的类分布,Reduce 进程负责收集每个映射器生成的输出以形成平衡数据集。 该过程如图 1 所示,包括四个步骤:初始、映射、缩减和最终。 图 1:ROS MapReduce 设计如何工作的流程图。 大数据的随机欠采样:按照MapReduce程序选择样本 适用于处理大数据的随机欠采样 (RUS) 版本遵循 MapReduce 设计,其中每个 Map 进程负责按类对其数据分区中的所有实例进行分组,Reduce 进程负责收集每个映射器的输出并平衡通过随机消除多数类实例来形成平衡数据集的类分布。
2022-04-07 14:50:47 501KB Java
1
基于物品的协同过滤算法 (mapreduce
2022-04-06 02:50:43 31KB 算法 mapreduce big data
MapReduce 大数据 入门 学习
2022-04-06 02:50:11 1.26MB big data mapreduce 学习
MapReduce开发 大数据 入门 学习
2022-04-06 02:50:10 498KB big data mapreduce 学习
Map-Reduce源码.png
2022-04-06 02:49:57 536KB 大数据 mapReduce
1
对Google第一版的mapreduce相关文献进行的翻译。结合了的知秋的相关文章翻译的,不收费
2022-04-06 02:49:56 610KB mapreduce big data 大数据
1
Hadoop、MapReduce、Yarn
2022-04-06 02:49:30 13.97MB hadoop mapreduce 云计算 大数据
1
已导入Java依赖包,hadoop依赖包并实现以下功能: 1.Wordcount 统计test.txt文件hello和jxxy出现的次数 2.编程实现文件合并和去重操作 对于两个输入文件,即文件A和文件B,编写程序对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C。 3.编程实现对输入文件的排序 现在有多个输入文件,每个文件中的每行内容均为一个整数。要求读取所有文件中的整数,进行升序排序后,输出到一个新的文件中,输出的整数格式为每行两个整数,第一个整数位第二个整数的排序位次,第二个整数位原待排列的整数。
2022-04-06 02:49:29 13KB jar mapreduce java big
在Hadoop大数据平台的基础上构建了一个基于MapReduce框架并行化的C4.5决策树算法,并采用此算法设计了一套银行贷款的风险预测系统。算法结合MapReduce框架、HDFS 文件存储系统,使用Java语言编写,根据贷款人的各个特征属性信息增益率来选择决策点。其中包含对连续值属性、离散值属性的处理,采用后剪枝悲观剪枝的方法对决策树进行剪枝,以避免决策树出现过拟合的特征。系统包含数据导入、数据分析、结果展示等模块,操作简单、快捷,能准确预测贷款人的信誉情况,平均准确率达到65%~80%,而且与传统的决策树模型相比在性能方面有更好的提升。
2022-04-04 22:33:10 70.54MB hadoop mapreduce 决策 java
1