环境需求 运行环境 python2.7 Anaconda 4.0 Jupyter notebook 外部依赖库 numpy pandas sklearn statsmodels 文件 data 用于存储所有的数据,包括原始数据,额外数据,处理后的数据,模型中间数据以及最后提交的结果。 results 存储模型和规则预测出的最终结果。 shop_info_name2Id 将商店中的地址、三级分类等名词映射成Id保存在该文件夹下。 statistics 原始数据处理后的数据,包括平滑后的数据,天气数据和天气统计。 test_train 存储线下线上train和test的特征以及标签文件。 weekABCD 线下线上训练集和测试集的划分,按日分。 weekABCD_0123 线下线上训练集和测试集的划分(将一天分为四个时间段,没六小时一个时间段)。 main 主要的数据预处理代码和模型,以及数据分析代码。 analysis 数据分析的代码和统计结果。 data_processing 数据预处理,包括数据统计,数据预处理,数据平滑,训练集和测试集划分。 avg_smooth
针对智能商业平台中的大数据预测问题,提出一种多因素稀疏回归预测模型。以离散余弦变换为基础,构建包含多个外部因素(节假日、天气、温度)的字典集,通过LASSO方法定量求解稀疏编码模型中各外部因素的影响。实验对2 000个商家的客流量进行预测。实验结果表明,外部因素不同程度地影响客流量,在预测模型中叠加外部因素后可以有效提高预测的准确性。同时,与其他方法对比表明,多因素稀疏回归预测模型比RNN、ARIMA 等模型的预测效果更好。
2021-10-30 16:16:16 1.5MB 智能商业平台 客流量预测 稀疏回归
1