Google的MapReduce并行计算原始论文详解。
2021-04-15 16:15:58 212KB MapReduce 并行计算
1
MapReduce在Windows环境下所需要的hadoop(bin目录),内含winutils 支持MapReduce和Spark的windos环境
2021-04-15 16:04:28 745KB hadoop MapReduce spark
1
根据数据文件phone_data.txt按照如下要求实现MapReduce分析程序编写: 需求: 1)统计每一个手机号耗费的总上行流量、下行流量、总流量 2)将统计结果按照手机归属地不同号段(手机号前3位)输出到不同文件中 3)根据需求1)产生的结果再次对总流量进行排序。 4)按照要求2)每个手机号段输出的文件中按照总流量内部排序。
2021-04-11 17:19:42 69KB 大数据 MapReduce Hadoop
1
使用协同过滤算法计算用户偏好,用了多个MapReduce处理该业务,每次生成的文件存储在集群上,最后实现JobContorl,并将所需数据存储到mysql中
2021-04-11 16:57:28 188KB hadoop 协同过滤 hdfs MapReduce
1
大数据技术的两个基本要点是分布式存储和多点并行运算,Hadoop的分布式文件系统HDFS和并行运算框架Hadoop MapReduce分别予以了实现。计算机集群中的每个节点既是存储节点,也是运算节点,HDFS将大数据文件分布存储在集群中的各个节点,并通过MapReduce编程框架将用户定义的算法“输送”至各数据节点执行运算。实现了更广泛更灵活的运算与存储资源的调度。
2021-04-11 16:16:29 682KB HADOOP
1
针对用电数据量大、用电数据挖掘效率低等问题,采用理论分析和实验的方法,进行用电数据并行分析构架的研究,研究了Canopy和K-means两种典型的聚类算法,提出一种新的聚类思路,使用Canopy先对用电数据进行粗略处理,得到聚类个数和聚类中心,再用K-means精确聚类,既利用了K-means算法简单、收敛速度快的优势,又使其不容易陷入局部最优.为达到处理海量数据的目的,把提出的算法部署到MapReduce框架上进行实验.研究结果表明:提出的算法在海量用电数据的处理方面高效可行,并且具有良好的加速比.
1
这个资源用来打包eclipse插件,进而进行mapreduce程序的开发
2021-04-11 11:18:46 22.80MB hadooop mapreduce plugin
1
美国新冠疫情MR案例数据集
2021-04-01 16:00:20 33.77MB mapreduce
1
内涵三篇谷歌发表的中文版大数据起源之Hadoop论文,Google-Bigtable中文版_1.0,Google-File-System中文版_1.0,Google-MapReduce中文版_1.0
1
hadoop安装与配置及mapreduce测试网站
2021-03-31 16:45:36 49KB hadoop mapreduce ubuntu jobtracker
1