为方便大家学习使用“NCDC气象数据的提取与处理(二)”,提供此范例数据,包括一个完整应用案例所需要的原始数据,代码,以及输出结果。
2023-02-16 14:09:26 40.26MB 数据处理 NCDC
1
NCDC天气数据集Hadoop MapReduce猪蜂巢 国家气候数据中心(NCDC)是世界上最大的实时气象数据存档。 我下载了1930年的NCDC数据并将其加载到HDFS系统中。 我实现了MapReduce程序和Pig,Hove脚本,以找到不同站点的Min,Max,avg温度。 编译了Java文件:javac -classpath /home/student3/hadoop-common-2.6.1.jar:/home/student3/hadoop-mapreduce-client-core-2.6.1.jar:/home/student3/commons-cli -2.0.jar -d MaxTemperature.java MaxTemperatureMapper.java MaxTemperatureReducer.java 创建了JAR文件:jar -cvf hadoop-
2022-12-03 21:57:08 46KB Java
1
对于学习大数据的最好的数据集,数据简单,但是网络上只有少数几年的数据,规模不大,本人直接从美国ncdc官网爬下来的(每次只能上传220,所以需要分批上传)
2021-11-28 10:43:30 169.63MB hadoop dataset spark scala
1
MapReduce是一种可用于数据处理的编程模型。该模型比较简单,但用于编写有用的程序并不简单。Hadoop可以运行由各种语言编写的 MapReduce程序。本章中,我们将看到用Java、Ruby、Python 和C++语言编写的同一个程序。最重要的是,MapReduce程序本质上是并行运行的,因此可以将大规模的数据分析任务交给任何一个拥有足够多机器的运营商。MapReduce的优势在于处理大规模数据集,所以这里先来看一个数据集。 本zip压缩包为气象数据集。
2021-06-11 11:23:15 142KB Hadoop ncdc 气象资料 hadoop
1