基于物品的协同过滤算法 (mapreduce)
2022-04-06 02:50:43 31KB 算法 mapreduce big data
MapReduce 大数据 入门 学习
2022-04-06 02:50:11 1.26MB big data mapreduce 学习
MapReduce开发 大数据 入门 学习
2022-04-06 02:50:10 498KB big data mapreduce 学习
Map-Reduce源码.png
2022-04-06 02:49:57 536KB 大数据 mapReduce
1
对Google第一版的mapreduce相关文献进行的翻译。结合了的知秋的相关文章翻译的,不收费
2022-04-06 02:49:56 610KB mapreduce big data 大数据
1
Hadoop、MapReduce、Yarn
2022-04-06 02:49:30 13.97MB hadoop mapreduce 云计算 大数据
1
已导入Java依赖包,hadoop依赖包并实现以下功能: 1.Wordcount 统计test.txt文件hello和jxxy出现的次数 2.编程实现文件合并和去重操作 对于两个输入文件,即文件A和文件B,编写程序对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C。 3.编程实现对输入文件的排序 现在有多个输入文件,每个文件中的每行内容均为一个整数。要求读取所有文件中的整数,进行升序排序后,输出到一个新的文件中,输出的整数格式为每行两个整数,第一个整数位第二个整数的排序位次,第二个整数位原待排列的整数。
2022-04-06 02:49:29 13KB jar mapreduce java big
在Hadoop大数据平台的基础上构建了一个基于MapReduce框架并行化的C4.5决策树算法,并采用此算法设计了一套银行贷款的风险预测系统。算法结合MapReduce框架、HDFS 文件存储系统,使用Java语言编写,根据贷款人的各个特征属性信息增益率来选择决策点。其中包含对连续值属性、离散值属性的处理,采用后剪枝悲观剪枝的方法对决策树进行剪枝,以避免决策树出现过拟合的特征。系统包含数据导入、数据分析、结果展示等模块,操作简单、快捷,能准确预测贷款人的信誉情况,平均准确率达到65%~80%,而且与传统的决策树模型相比在性能方面有更好的提升。
2022-04-04 22:33:10 70.54MB hadoop mapreduce 决策 java
1
搜索引擎一般会有一个日志文件来记录所有用户的查询,当有一个用户使用搜索引擎进行搜索时,日志文件会记录这样一条记录:(搜索时间、搜索关键字、用户IP)。由于搜索引擎用户量较大,这个日志文件往往很大,一般可以存放在分布式文件系统中,例如HDFS中。分析这个日志文件,我们可以得到搜索引擎在近一段时间内的热点词(即搜索较多的词,例如一天内搜索次数最多的50个关键词,也即日志文件中出现次数最多的50个搜索关键字)。 请使用HDFS接口来自动生成这样一个日志文件,日志文件中每行的内容要求是如下格式: --------------------------------------------- 日期 时间 关键词 IP地址 --------------------------------------------- 2011-10-26 06:11:35 云计算 210
2022-03-29 22:58:32 926KB Java
1
Google大数据三大论文中文版下载,Google三篇论文MapReduce、GFS、Bigtable pdf下载
1