环境需求 运行环境 python2.7 Anaconda 4.0 Jupyter notebook 外部依赖库 numpy pandas sklearn statsmodels 文件 data 用于存储所有的数据,包括原始数据,额外数据,处理后的数据,模型中间数据以及最后提交的结果。 results 存储模型和规则预测出的最终结果。 shop_info_name2Id 将商店中的地址、三级分类等名词映射成Id保存在该文件夹下。 statistics 原始数据处理后的数据,包括平滑后的数据,天气数据和天气统计。 test_train 存储线下线上train和test的特征以及标签文件。 weekABCD 线下线上训练集和测试集的划分,按日分。 weekABCD_0123 线下线上训练集和测试集的划分(将一天分为四个时间段,没六小时一个时间段)。 main 主要的数据预处理代码和模型,以及数据分析代码。 analysis 数据分析的代码和统计结果。 data_processing 数据预处理,包括数据统计,数据预处理,数据平滑,训练集和测试集划分。 avg_smooth