哇〜! KDD的其他竞争对手。 我在第一天参加了这项比赛,很快就建立了一个合理的基准。 由于某些私人方面的原因,自5月初以来,我几乎停止改善自己的解决方案。 尽管与第2阶段的许多顶级参与者相比,我的方法不能很好地发挥作用,但是我认为我的解决方案由于相对简单而值得共享。 我一点也没有接触过meo数据,我的一个模型只是计算中位数。
替代数据源
对于新每小时的空气质量数据,在论坛上为共享,我使用伦敦和对北京而不是从组织者的API。
处理丢失的数据
我通过3个步骤填充了空气质量数据中的缺失值:
根据其他测站的值填充测站组合的缺失值。 具体来说:我为此训练了131个lightgbm回归器。 如果北京奥特中信站5月20日2:00的PM2.5读数丢失,则回归器aotizhongxin_aq-PM2.5将基于5月20日2:00已知的北京其他34个站的PM2.5读数来预测该值。 我使用阈值来决定是否进行这
2021-10-11 15:23:52
73KB
Python
1