该模型为谷歌使用大量tpu训练的bert模型,一个tpu性能要比最强大的gpu强,训练的bert模型用处nlp,通常训练nlp模型时用该模型为预训练模型
2022-05-06 17:01:13 364.2MB nlp
1
CLUEDatasetSearch 中英文NLP数据集。可以点击。 您可以通过贡献你的力量。上传五个或以上数据集信息并审核通过后,该同学可以作为项目贡献者,并显示出来。 如果数据集有问题,欢迎提出问题。 所有数据集均压缩网络,只做整理供大家提取方便,如果有缺陷等问题,请及时联系我们删除。 内尔 ID 标题 更新日期 数据集提供者 许可 说明 关键字 类别 论文地址 备注 1个 2017年5月 北京极目云健康科技有限公司 数据统计其云医院平台的真实电子病历数据,共计800条(个别病人单次就诊记录),经脱敏处理 电子病历 命名实体识别 \ 中文 2 2018年 医渡云(北京)技术有限公司 CCKS2018的电子病历命名实体识别的评估任务提供了600份标注好的电子病历文本,共需识别含解剖部位,独立症状,症状描述,手术和药物五类实体 电子病历 命名实体识别 \ 中文 3 \ MSRA 数据抽样MSRA,标注形式为BIO,共有46365条语料 姆斯拉 命名实体识别 \ 中文 4 1998年1月 人民日报 数据来源为98年人民日报,标注形式为BIO,共有23061条语料 98人民日报 命名实体识
2022-02-24 08:45:26 695KB nlp qa sentiment-analysis text-classification
1
本方法是基于BIOES标注的,如果为其它,请自行修改代码 正常ONE-HOT标注数据是按字标注的:如 反 复 胸 痛 1 5 年 B-PL E-PL B-ZZ E-ZZ B-SJ I-SJ E-SJ 经过BERT分词器分词后为: 反 复 胸 痛 15 年 这时候label就要重新修复下偏移了,修复后结果如下: B-PL E-PL B-ZZ E-ZZ B-SJ E-SJ
2022-01-19 14:02:57 1KB 自然语言处理 bert 人工智能 nlp
1
mynlp:一个生产级,高性能,预定,可扩展的中文NLP工具包。(中文分词,平均感知机,fastText,拼音,新词发现,分词纠错,BM25,人名识别,命名实体,自定义词典)
2021-10-26 17:08:50 1.16MB nlp segment pinyin fasttext
1
ChineseNLP:中文NLP各领域的数据集,SOTA结果
1
财经词库 拆字词库 成语词库 地名词库 动物词库 法律词库 繁简体转换词库 公司名字词库 古诗词库 历史名人词库 汽车品牌、零件词库 诗词短句词库 食物词库 停用词 同义词库、反义词库、否定词库 医学词库 职业词库 中文分词词库整理 中文缩写库 中文谣言数据 中英日文名字库 IT词库 NLP_BOOK
2021-09-10 19:09:50 68.76MB NLP 神经语言程序学资源
中文停用词,txt文档,做python的nlp必要的资源
2021-07-05 15:01:36 17KB 停用词 stopwords 中文nlp python
1
我下载了多个停用词表,将其合并后去重,得出这个最新的停用词表。欢迎下载使用。
2021-02-28 22:02:36 22KB 中文NLP 中文停用词
1
中文NLP序列标注工具。利用CRF进行命名实体识别NER,自动标注数据集产生语料库,可以选择BIO或者BMES标注体系。
2019-12-21 19:58:54 9.85MB NLP CRF
1