为了提高k-nearest neighbor algorith m(KNN)算法处理大数据集的能力,本文利用Ma pReduce并行编程模型,同时结合KNN算法自身的特点,给出了KNN算法在Hadoop平台下的并行化实现。通过设计Ma p、Co mbine和Reduce 3个函数,实现了KNN算法的并行化。Ma p函数完成每个测试样本与训练样本之间的相似度计算,Co mbine函数作为一个本地的Reduce操作,用以减少中间计算量及通信开销,Reduce函数则根据上述函数得到的中间结果计算出k近邻并作出分
2021-12-03 20:16:41 476KB 工程技术 论文
1
初学大数据hadoop,自己写实践练手的示例,示例非常全,带目录,非常清晰。
2021-11-30 17:12:56 2.14MB hadoop mr mapreduce 大数据
1
ExcelRecordReaderMapReduce hadoop mapreduce的MapReduce输入格式以读取Microsoft Excel电子表格 执照 Apache许可。 用法 1.下载并运行ant。 2.在您的环境中包括ExcelRecordReaderMapReduce-0.0.1-SNAPSHOT.jar 3.使用ExcelInputFormat类作为Mapper的输入格式。 检查src / test / resource / test.xls以查看演示文件。 返回的键是从零开始的文件偏移量,值是单行的所有列值。 不支持Zip文件执行任务为> hadoop jar ExcelRecordReaderMapReduce-0.0.1-SNAPSHOT-jar-with-dependencies.jar出来作业完成后,您可以检查HDFS中输出目录的内容。 hadoop fs
2021-11-30 16:29:14 14.02MB Java
1
Hadoop技术内幕+深入理解MapReduce架构设计与实现原理Hadoop技术内幕+深入理解MapReduce架构设计与实现原理
2021-11-30 15:34:21 45.77MB MapReduce Hadoop
1
传统的数据分析方法面对海量电信数据存在管理和分析难的问题。Hadoop 是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于云计算领域。本文在对云计算和Hadoop进行分析和研究的基础上,提出了一种针对海量电信数据的分布式云计算方法,建立了基于Hadoop的海量电信数据云计算平台。实验证明,该平台能够有效完成海量数据的管理和分析任务,提高海量数据分析的速度和效率。
1
包org.apache.hadoop.mapreduce的Hadoop源代码分析
2021-11-30 14:13:49 228KB hadoop
1
大数据分析、运维。 在集群节点中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目录下,存在一个案例JAR包hadoop-mapreduce-examples.jar。运行JAR包中的sudoku程序来计算下表中数独运算题的结果。
2021-11-30 11:06:21 171B 数独 MapReduce sudoku
1
第二章 分布式文件系统HDFS+MapReduce(代码实现检查文件是否存在&WordCount统计),课程依赖上一个章节:第一章 大数据安装教程(Virtual&ubuntu&hadoop单机)
2021-11-29 23:34:48 5.84MB hdfs mapreduce 分布式文件 WordCount
1
《MapReduce2.0源码分析与编程实战》比较系统地介绍了新一代MapReduce2.0的理论体系、架构和程序设计方法。全书分为10章,系统地介绍了HDFS存储系统,Hadoop的文件I/O系统,MapReduce2.0的框架结构和源码分析,MapReduce2.0的配置与测试,MapReduce2.0运行流程,MapReduce2.0高级程序设计以及相关特性等内容。《MapReduce2.0源码分析与编程实战》最后部分介绍了数据挖掘的初步知识,以及不同应用类型的MapReduce2.0编程实战。《MapReduce2.0源码分析与编程实战》强调理论联系实际,帮助读者在掌握MapReduce2.0基本知识和特性的基础上,培养实际编程和解决大数据处理相关问题的能力。《MapReduce2.0源码分析与编程实战》可作为学习MapReduce2.0的源码、MapReduce2.0程序设计、数据挖掘、机器学习等相关内容的程序设计人员的培训和自学读物,也可以作为高等院校相关专业的教学辅导书。
2021-11-29 21:09:30 62.13MB MapReduce 源码分析
1
基于MapReduce的简单倒排索引的建立
2021-11-28 22:11:41 1.8MB MapReduce 倒排索引
1