2021-GAIIC-Task3-Share 全球人工智能技术创新大赛-赛道三:小布助手对话短文本语义匹配 周周星分享 非常荣幸能够拿到周周星,目前初赛第四,本着互联网开源精神,这里也做一些的分享,和大家相互学习,共同进步。 数据 1,对偶数据增强,即Q1-Q2对变成Q2-Q1对; 2,闭包数据增强,即Q1-Q2 = 1,Q2-Q3 = 1,则Q1-Q3 = 1;注意:数据增强时要保证正负样本比例,与原始分布一致,否则无效果甚至导致效果变差。 模型训练方式 半互动 1,ESIM,2,Bimpm,3,SentenceBert,注意:半交互是我们一开始的思路,并使用双路bert,上层使用bert前模型等;并且使用ESIM单模加上技巧,单模也可以上0.89,但是后面使用全交互,效果更好,就没有再继续实验了。 全互动 1,先MLM预训练,再微调; 2,MLM预训练与微调一起做,注意:第二种方式会比
2021-09-20 00:03:59 125KB
1
2021 GAIIC Task3 Preliminary Share 赛题 - 小布助手对话短文本语义匹配 十分荣幸能获得初赛最后一周的周星星,目前成绩第五,这里分享一些实验结果和心得给和我一样刚接触NLP比赛的同学们,同时也感谢比赛路上各位大佬开源的成果给我带来的帮助 模型架构 bert/nezha base 预训练+微调 数据增强 对偶 (q1 - q2 = 1 => q2 - q1 = 1) 闭包 (q1 - q2 = 1 & q2 - q3 = 1 => q1 - q3 = 1) 实验细节 闭包只造了正样本。如果正负样本都造效果会差2个千分点左右 数据增强只在预训练阶段,微调阶段使用原数据集 闭包造的正样本也对偶了 预训练 参考的是 transformers 官方的代码 vocab.txt 是徒手解析原数据按空格切开生成的,没做词频对齐 加载了 bert/nezha base 的预
2021-09-20 00:01:32 47KB
1
2021量子计算技术创新与趋势展望.pdf
2021-09-14 16:02:22 17.42MB
新能源汽车:运营创新和技术创新互为促进.pdf
2021-09-01 14:08:13 682KB 新能源 能源时代 能源信息 参考文献
浅议国内外新能源汽车技术创新政策梳理与评价.pdf
2021-09-01 14:08:09 101KB 新能源 能源时代 能源信息 参考文献
新能源汽车产业发展技术创新能力的对策研究 (2).pdf
2021-09-01 14:08:04 546KB 新能源 能源时代 能源信息 参考文献
网络视角下战略性新兴产业技术创新小生境演化研究——以中国新能源汽车产业为例.pdf
2021-08-31 22:02:54 4.53MB 新能源 能源时代 能源信息 参考文献
金融状况与战略性新兴产业技术创新——以新能源产业为例.pdf
2021-08-31 13:09:33 1.24MB 新能源 能源时代 能源信息 参考文献
浅谈新能源电池技术创新.pdf
2021-08-31 09:08:49 403KB 新能源 能源时代 能源信息 参考文献
“新基建”加速安全技术创新.pdf
2021-08-30 17:00:30 3.77MB 网络安全