预测航空公司延误
使用Hadoop通过2007年和2008年的数据预测奥黑尔机场的航班延误。使用Pig脚本,构建了一个特征矩阵,通过该矩阵我们可以训练和预测航空公司的延误,准确度约为80%
项目详情
建立了一个预测航空公司延误的模型,准确度约为80%
将航空公司数据集与UCI Repo的740万飞行记录一起使用
利用Pydoop实现MapReduce以构建特征矩阵
使用Pig脚本生成功能
使用Python,Scikit-Learn,Pig,Hadoop,HDFS,AWS EMR,IPython构建
技术指标
Python 2.7
Hadoop 2.7.3
Scikit学习
大熊猫
线性回
1