MapReduce2.0源码分析与编程实战》比较系统地介绍了新一代MapReduce2.0的理论体系、架构和程序设计方法。全书分为10章,系统地介绍了HDFS存储系统,Hadoop的文件I/O系统,MapReduce2.0的框架结构和源码分析,MapReduce2.0的配置与测试,MapReduce2.0运行流程,MapReduce2.0高级程序设计以及相关特性等内容。《MapReduce2.0源码分析与编程实战》最后部分介绍了数据挖掘的初步知识,以及不同应用类型的MapReduce2.0编程实战。《MapReduce2.0源码分析与编程实战》强调理论联系实际,帮助读者在掌握MapReduce2.0基本知识和特性的基础上,培养实际编程和解决大数据处理相关问题的能力。《MapReduce2.0源码分析与编程实战》可作为学习MapReduce2.0的源码、MapReduce2.0程序设计、数据挖掘、机器学习等相关内容的程序设计人员的培训和自学读物,也可以作为高等院校相关专业的教学辅导书。
2021-11-29 21:09:30 62.13MB MapReduce 源码分析
1
基于MapReduce的简单倒排索引的建立
2021-11-28 22:11:41 1.8MB MapReduce 倒排索引
1
前四节提供了几个小案例 下面详细介绍MapReduce中Map任务Reduce任务以及MapReduce的执行流程。 Map任务: 读取输入文件内容,解析成key,value对。对输入文件的每一行,解析成key,value对。每一个键值对调用一次map函数。 写自己的逻辑,对输入的key,value处理,转换成新的key,value输出。 对输出的key,value进行分区。 对相同分区的数据,按照key进行排序(默认按照字典排序)、分组。相同key的value放在一个集合中。 (可选)分组后对数据进行归约。 注意:MapReduce中,Mapper可以单独存在,但是Reducer不能存在。
2021-11-28 11:16:31 362KB c ce do
1
在享受着网络技术带来的便利的同时,潜在的威胁在暗处窥探着我们的隐私和安全,例如一种新的网络攻击方式——高级持续型渗透攻击因为其特殊型和高危型逐步受到网络安全从业者的关注。高级持续型渗透攻击由于其颠覆传统病毒的特性,传统的检测方式难以方便的检测其存在和运行,而现有的检测方式有往往伴随着计算资源和时间资源的消耗。因此,基于动态监测APT病毒的目的,笔者采用了行为分析的检测方法,结合MAPREDUCE编程方式和支持向量机算法,得出了一种新的APT检测模型并测算出了分析权重数据。
2021-11-27 18:02:09 1.5MB APT; 行为检测; MapReduce; SVM;
1
用于多个MapReduce作业的任务调度算法.pdf
2021-11-26 10:03:11 276KB 算法 调度算法 数据结构 参考文献
基于MapReduce实现物品协同过滤算法(ItemCF) 具体参考 补充:hadoop三种执行方式 MR执行环境有两种:本地测试环境,服务器环境 本地测试环境(windows): 在windows的hadoop目录bin目录有一个winutils.exe 1、在windows下配置hadoop的环境变量 2、拷贝debug工具(winutils.ext)到HADOOP_HOME/bin 3、修改hadoop的源码 ,注意:确保项目的lib需要真实安装的jdk的lib 4、MR调用的代码需要改变: a、src不能有服务器的hadoop配置文件 b、在调用是使用: Configuration config = new Configuration(); config.set("fs.defaultFS", "hdfs://node7:8020"); config.set
2021-11-22 14:41:03 60KB Java
1
在Windows上运行MapReduce的文件
2021-11-21 22:10:05 15.25MB hadoop mapreduce
1
美国人口普查数据分析使用MapReduce :diamond_suit: 开发了一个系统来解析和处理1990年的人口普查数据,支持对所有五十个州(Java,Hadoop MapReduce,HDFS)的人口统计数据进行知识提取 :diamond_suit: 然后使用Google Fusion将结果叠加在Google Maps上 1)在这个程序中,我所有的代码都放在一个包结构中: cs455 / hadoop / census,支持的jar文件位于cs455 / hadoop / census /文件夹中 提供的build.xml文件将编译所有java文件并创建jar文件 输入$ ant创建jar文件 该代码带有注释。
2021-11-17 13:50:35 14KB Java
1
该文档为学习基本排序算法过程中的学习笔记,大部分内容从网络上其他渠道也能得到,仅用于记录备忘之用。冒泡、选择、插入三种作为基本的排序算法是必须要掌握的,而在MapReduce的实际应用中。在Map阶段,k-v溢写时,采用的正是快排;而溢出文件的合并使用的则是归并;在Reduce阶段,通过shuffle从Map获取的文件进行合并的时候采用的也是归并;最后阶段则使用了堆排作最后的合并过程。所以快排、归并以及堆排是必须要掌握的排序算法,这都在MapReduce内部使用的排序算法,学习Hadoop的必须过程。 所谓算法稳定性即能够保证排序前两个相
1
基于MapReduce,实现并行计算环境下的网页排序算法
2021-11-16 17:04:00 26KB MapReduce 并行环境 网页排序
1