上传者: 42139252
|
上传时间: 2021-11-03 12:47:32
|
文件大小: 126KB
|
文件类型: -
基于Pytorch的中文语义相似度匹配模型
基于Pytorch的中文语义相似度匹配模型
本项目将持续更新,对比目前业界主流文本匹配模型在中文的效果
运行环境:python3.7,pytorch1.2,transformers2.5.1
数据集采用LCQMC数据(将一个句子对进行分类,判断两个句子的语义是否相同(二分类任务)),因数据存在涉嫌嫌疑,故不提供下载,需要者可向官方提出数据申请 ,将数据解压到数据文件夹即可。模型评价指标为:ACC,AUC以及预测总计耗时。
嵌入:本项目输入都统一采用分字策略,故通过维基百科中文语料,训练了字向量作为嵌入。训练语料,矢量模型以及词表,可通过百度网盘下载。链接: : 提取码:s830
模型文件:本项目训练的模型文件(不一定最优,可通过超参继续调优),也可通过网盘下载。链接: : 提取码:s830
测试集结果对比:
模型
行政协调会
AUC
耗时(s