分区Partitioner 分区操作是shuffle操作中的一个重要过程,作用就是将map的结果按照规则分发到不同reduce中进行处理,从而按照分区得到多个输出结果。 Partitioner是partitioner的基类,如果需要定制partitioner也需要继承该类HashPartitioner是mapreduce的默认partitioner。 计算方法是:which reducer=(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks 注:默认情况下,reduceTask数量为1 很多时候MR自带的分区规则并不能满足我们需求,为了实
2023-01-03 20:20:54 101KB c ce do
1
Eclipse的Hadoop插件在开发hadoop应用程序中可以提供一些很方便的操作,可以直接Eclipse中浏览HDFS上的文件,可以直接新建选择MapReduce项目,项目自动包含所有需要的hadoop jar包,不必再手动拷贝。
2022-12-31 17:11:09 36.35MB hadoop eclipse 2.8.4 plugin
1
电子商务中会产生海量的数据,蕴含着不可估量的数据价值,可通过数据分析来挖掘这些潜在价值,以提升平台的销量。本次实践项目利用 Hadoop 的分布式计算框架 MapReduce 来分析用户行为数据,计算得出商品点击排行、商品分类占比等统计指标,使得更加熟练掌握 MapReduce 程序的设计。 相关理论知识有,Map 和 Reduce 流程图如下:输入数据(INPUT)首先分割(SPLIT)成若干份,然后每份分别进行 MAP 过程;中间再经过 COMBINE 任务(可选)和 PARTTION 对 MAP 所得的结果进行聚合——把同 key 的结果放到同一组,最后再进行 REDUCE 过程。
2022-12-31 12:22:06 4.19MB 电子商务 大数据 Hadoop MapReduce
1
使用MongoDB,Hadoop大数据和Spring技术开发电子商务应用程序 该电子商务项目展示了如何使用MongoDB,Hadoop大数据和Spring技术来开发电子商务应用程序。 该应用程序包括几个基本的电子商务组件:“产品目录”组件,“库存管理”组件和“产品类别”组件。 分片的MongoDB集群为产品目录数据,产品库存数据和其他应用程序数据提供存储。 应用程序域模型基于MongoDB POJO类构建。 建立了一个包含100000多种产品的示例数据库,以支持E-Commerce应用程序。 Hadoop大数据技术用于自动发现电子商务应用程序中数据的用户见解。 Hadoop集成主要通过开发Map / Reduce作业来实现。 已开发的Map / Reduce作业在MongoDB和Ubuntu平台上运行。 Spring和Spring Boot技术用于为电子商务应用程序提供系统集成平台。
2022-12-30 21:41:09 18.64MB Java
1
Hadoop mapreduce 实现InvertedIndexer倒排索引,能用。
2022-12-30 10:34:30 7KB Hadoop mapreduce 倒排索引
1
预测航空公司延误 使用Hadoop通过2007年和2008年的数据预测奥黑尔机场的航班延误。使用Pig脚本,构建了一个特征矩阵,通过该矩阵我们可以训练和预测航空公司的延误,准确度约为80% 项目详情 建立了一个预测航空公司延误的模型,准确度约为80% 将航空公司数据集与UCI Repo的740万飞行记录一起使用 利用Pydoop实现MapReduce以构建特征矩阵 使用Pig脚本生成功能 使用Python,Scikit-Learn,Pig,Hadoop,HDFS,AWS EMR,IPython构建 技术指标 Python 2.7 Hadoop 2.7.3 Scikit学习 大熊猫 线性回
2022-12-29 17:10:00 6KB python hadoop random-forest scikit-learn
1
云计算与大数据的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。大数据技术是一种新一代技术和构架,它以成本较低、以快速的采集、处理和分析技术,从各种超大规模的数据中提取价值。大数据技术不断涌现和发展,让我们处理海量数据更加容易、更加便宜和迅速,成为利用数据的好助手,甚至可以改变许多行业的商业模式。 本资源介绍了大数据和云计算的基本概念、技术及应用。全书分为基础篇、技术与应用篇和实践篇,主要内容包括:绪论、大数据环境下的云计算架构、大数据关键技术与应用、云存储、云服务与云安全、云计算应用、虚拟化技术、Hadoop和Spark平台、分布式文件系统及并行计算框架、分布式数据存储与大数据挖掘。
2022-12-29 09:26:01 88.93MB 云计算 大数据 Hadoop 虚拟化
1
避免重复率太高只有可科学上网的师弟师妹们才可以按文档搜索获取完整版
2022-12-29 09:16:04 637KB 广东工业大学 实验报告 云计算
1
大数据导论实验一——搭建Hadoop集群实验报告
2022-12-27 20:16:45 948KB hadoop 数据库 hdfs
1
详细描述了Spark1.6.0的安装过程和使用方法。严格按照教程安装基本上都能成功。与各位同仁共勉。
2022-12-27 13:04:34 516KB Spark; Hadoop
1