2021 GAIIC Task3 Preliminary Share
赛题 - 小布助手对话短文本语义匹配
十分荣幸能获得初赛最后一周的周星星,目前成绩第五,这里分享一些实验结果和心得给和我一样刚接触NLP比赛的同学们,同时也感谢比赛路上各位大佬开源的成果给我带来的帮助
模型架构
bert/nezha base 预训练+微调
数据增强
对偶 (q1 - q2 = 1 => q2 - q1 = 1)
闭包 (q1 - q2 = 1 & q2 - q3 = 1 => q1 - q3 = 1)
实验细节
闭包只造了正样本。如果正负样本都造效果会差2个千分点左右
数据增强只在预训练阶段,微调阶段使用原数据集
闭包造的正样本也对偶了
预训练
参考的是 transformers 官方的代码
vocab.txt 是徒手解析原数据按空格切开生成的,没做词频对齐
加载了 bert/nezha base 的预
1