探究BERT中文基础模型(BERT-Base-Chinese)和BERT中文医学预训练模型(BERT-Re-Pretraining-Med-Chi)在中文医学文献分类上的分类效果及差异原因。[方法] 本研究以34万篇中文医学文献摘要为医学文本预训练语料,分别以16,000和32,000条中文医学文献摘要为分类的训练样本,并以另外的3200条摘要作为测试样本,利用BERT的两个模型来进行中文医学文献分类研究,并以SVM方法作为对比基准。[结果] BERT的两种模型在分类效果上均优于SVM模型,两种模型的F1值均比SVM模型高出5%左右;BERT-Re-Pretraining-Med-Chi模型在两种样本量下F1值分别达到0.8390和0.8607,均为三者中最好的分类效果。[局限] 本研究仅对中图分类号R下的16个类别进行了分类研究,其余4个类别因数据量过少等原因而未纳入分类体系中。[结论] BERT-Re-Pretraining-Med-Chi方法能够显著提升医学文献的分类效果;基于BERT的深度学习方法在多类别大规模训练集下更能体现其分类的优越性。
2021-04-20 16:25:29
560KB
BERT
1