训练数据集包含大约145k时间序列。从2015年7月1日至2016年12月31日,每个时间序列都代表着一篇不同的Wikipedia文章的大量每日视图。培训阶段的排行榜基于2017年1月1日至3月的流量2017年1月1日。
第二阶段将使用直到2017年9月1日的培训数据。竞赛的最终排名将基于数据集中每篇文章在2017年9月13日至2017年11月13日之间的每日观看次数预测。您将在9月12日之前提交这些日期的预测。
对于每个时间序列,都会为您提供文章名称以及该时间序列所代表的流量类型(所有,移动,台式机,蜘蛛网)。您可以使用此元数据和任何其他公共可用数据进行预测。不幸的是,该数据集的数据源无法区分零流量值和缺失值。缺少值可能意味着流量为零或当天没有可用数据。
为了减小提交文件的大小,已为每个页面和日期组合指定了较短的ID。页面名称和提交ID之间的映射在密钥文件中给出。
business-size_1x.png
Web Traffic Time Series Forecasting_datasets.txt
2021-03-23 15:10:46
25KB
数据集
1