Tencent2018_Final_Phrase_Presto
腾讯2018广告大赛的决赛代码(初赛决赛数据格式一样,其实没区别。)。
两个LGB模型融合,最后成绩0.7534
赛题为相似人群拓展(Lookalike),基于广告主提供的一个种子人群(又称为种子包),自动计算出与之相似的人群(称为扩展人群)。
相关博客介绍:
原始数据下载(初赛): 提取码:50du
2018题目手册: 提取码:u5jr
由于本次比赛数据量巨大,加上本人能力和毕业季精力有限,本开源的成绩并不是很理想,仅供参考。
这是一个纯LGB模型,包括普通统计模型和独热统计模型两部分,分别单独跑出两个模型的结果后,对result进行平均已获得最终结果。
普通统计特征包括:
简单ID计数统计,对kw,topic做词向量训练后聚类,利用交叉窗口统计ID的转化次数等。
独热统计特征包括:
简单ID独热编码,几个交叉ID的独热编码
2023-02-02 15:25:16
28KB
Python
1