上传者: 42121412
|
上传时间: 2021-11-29 23:16:05
|
文件大小: 12.45MB
|
文件类型: -
Chinese NER Project
本项目为CLUENER2020任务baseline的代码实现,模型包括
BiLSTM-CRF
BERT-base + X (softmax/CRF/BiLSTM+CRF)
Roberta + X (softmax/CRF/BiLSTM+CRF)
本项目BERT-base-X部分的代码编写思路参考 。
项目说明参考知乎文章:
Dataset
实验数据来自。这是一个中文细粒度命名实体识别数据集,是基于清华大学开源的文本分类数据集THUCNEWS,选出部分数据进行细粒度标注得到的。该数据集的训练集、验证集和测试集的大小分别为10748,1343,1345,平均句子长度37.4字,最长50字。由于测试集不直接提供,考虑到leaderboard上提交次数有限,本项目使用CLUENER2020的验证集作为模型表现评判的测试集。
CLUENER2020共有10个