上传者: 42120275
|
上传时间: 2022-02-13 11:03:48
|
文件大小: 199KB
|
文件类型: -
BDC2019-排名24
中国高校计算机大赛-大数据挑战赛,Rank24解决方案
赛题描述:
我对业务的简单理解:就是就是搜索引擎,你搜一个“我是蔡”,即一个查询对应可能的搜索结果(即标题):①我是蔡虚鲲②我是菜徐坤③我是会员的接班人这时候你很可能就会去点我是蔡徐坤这就是这个比赛的任务,给你一个query-title对,让你预测这个query-title对被点击的概率,即可看做一个二分类问题,标签为0或1。
方案细节:
lgb两千万数据分数abang 0.590 nn替换纯文本输入,6个nn进行stacking之后分数a榜接近0.58。 nn stacking + lgb a榜605 b榜618。
方案耗时:
6个nn训练时间:共计24小时。特征生成时间(在1亿数据上):普通特征1小时,w2v距离特征8小时,tsvd特征1小时。共计10小时。
赛题解决方案:
通过分析可知, ①que