上传者: 38714910
|
上传时间: 2022-02-05 10:19:05
|
文件大小: 2.7MB
|
文件类型: -
世界风java源码使用
NoSQL
分析航班延误和天气数据集
介绍
该项目的目标是构建一个应用程序,该应用程序可以从两个不同的海量数据存储中摄取、存储、分析和提取有意义的见解。
这些来源中的第一个来源是
NOAA(国家海洋和大气管理局),它为我们提供了来自世界各地站点网络的每小时天气天气观测。
第二个数据源是
UBTS(美国运输服务局),它为我们提供了航班历史和延误情况。
技术栈
Python
Java
SQL
Hadoop
HBase
火花
阿帕奇凤凰
阿帕奇飞艇
Scikit-学习
熊猫
决定技术栈的标准
天气和飞行数据集的大小分别约为
750
GB
和
225
GB。
巨大的数据量促使我们构建一个可扩展的分布式
NoSQL
数据库,例如
HBASE
来存储数据
原始形式的数据集不利于分析,需要大量的预处理。
自定义python脚本用于预处理数据
后预处理,我们需要一个可扩展的分布式流程,可以批量上传到
HBase。
Apache
Spark
非常适合这里,因为它具有独特的内存处理能力,可以以非常高的速度处理大规模数据
该应用程序必须使其用户易于访问。
由于当前世界上的大多数用户已