环境需求
运行环境
python2.7 Anaconda 4.0
Jupyter notebook
外部依赖库
numpy
pandas
sklearn
statsmodels
文件
data
用于存储所有的数据,包括原始数据,额外数据,处理后的数据,模型中间数据以及最后提交的结果。
results
存储模型和规则预测出的最终结果。
shop_info_name2Id
将商店中的地址、三级分类等名词映射成Id保存在该文件夹下。
statistics
原始数据处理后的数据,包括平滑后的数据,天气数据和天气统计。
test_train
存储线下线上train和test的特征以及标签文件。
weekABCD
线下线上训练集和测试集的划分,按日分。
weekABCD_0123
线下线上训练集和测试集的划分(将一天分为四个时间段,没六小时一个时间段)。
main
主要的数据预处理代码和模型,以及数据分析代码。
analysis
数据分析的代码和统计结果。
data_processing
数据预处理,包括数据统计,数据预处理,数据平滑,训练集和测试集划分。
avg_smooth