本项目是自然语言处理NLP在中文文本上的一些简单应用,如文本分类、情感分析、命名实体识别等。 文本分类 数据集用的是头条的标题和对应文章分类数据。数据集来自这里: 文本分类的例子对应zh_article_classify_bilstm_attention.ipynb,这里构建的是BiLSTM+Attention的模型结构。 具体模型搭建如下: def create_classify_model(max_len, vocab_size, embedding_size, hidden_size, attention_size, class_nums): # 输入层 inputs = Input(shape=(max_len,), dtype='int32') # Embedding层 x = Embedding(vocab_size, embedding_size)(
2021-10-08 11:53:47 107.97MB 附件源码 文章源码
1
中文-DeepNER-Pytorch 天池中药说明书实体识别挑战冠军方案开源 贡献者: zxx飞翔​​的鱼: : 我是蛋糕王: : 数青峰: : 后续官方开放数据集后DeepNER项目会进行优化升级,包含完整的数据处理,训练,验证,测试,部署流程,提供详细的代码注释,模型介绍,实验结果,提供更普适的基础预训练的中文命名实体识别方案,开箱即用,欢迎星级! (代码框架基于火炬和变压器,框架进行性,解耦性,易读性较高,很容易修改迁移至其他NLP任务中) 环境 python3 . 7 pytorch == 1.6 . 0 + transformers == 2.10 . 0 pytorch - crf == 0.7 . 2 项目目录说明 DeepNER │ ├── data # 数据文件夹 │ ├── mid
2021-10-07 23:10:39 3.04MB Python
1
中文医学NLP公开资源整理:术语集/语料库/词向量/预训练模型/知识图谱/命名实体识别/QA/信息抽取/模型/论文/etc
2021-10-07 19:28:26 4KB 自然语言处理
1
为了获得更好的性能,您可以尝试NLPGNN,有关更多详细信息,请参见 。 BERT-NER版本2 使用Google的BERT进行命名实体识别(CoNLL-2003作为数据集)。 原始版本(有关更多详细信息,请参见old_version)包含一些硬代码,并且缺少相应的注释,因此不方便理解。 因此,在此更新版本中,有一些新的想法和技巧(关于数据预处理和图层设计)可以帮助您快速实现微调模型(您只需尝试修改crf_layer或softmax_layer)。 资料夹说明: BERT-NER |____ bert # need git from [h
2021-10-06 20:26:59 2.09MB tensorflow ner bert conll-2003
1
中国临床神经内科 CCKS2019中文命名实体识别任务。从医疗文本中识别疾病和诊断,解剖部位,影像检查,实验室检查,手术和药物6种命名实体。实现基于捷巴和AC自动机的基线构建,基于BiLSTM和CRF的序列标注模型构造。伯尔尼的部分代码源于感谢作者。模型最终测试集重叠0.81,还有更多改进空间。
2021-10-04 20:01:00 42.36MB 系统开源
1
EasyBert 基于Pytorch的Bert应用,包括命名实体识别、情感分析、文本分类以及文本相似度等(后续更新其他方向相关模块),并有相关数据与深度训练优化方式api。各个子项目大都为开源工作,本项目仅做相应处理以及提供一个已训练的预测接口,方便需求者进行快速的使用。本项目仅作为学习与研究使用,若存在侵权行为,请原作者务必联系我进行协商处理。 使用示例 使用前需下载相应的已训练模型,并导入相应位置 模型下载地址: 在此目录下各以需求名命名的文件中提供相应的使用演示,本阶段所训练的模型效果可以满足相应任务的基本需求。 现阶段通过各任务接口的时间相对慢,大都是在模型加载阶段。若想提升相应的速度,请使用者在接受相应精度损失的前提下更换AlBert进行相应任务的重新预训练。 依赖项 环境依赖 python >= 3.7 Pytorch >= 1.14 transformers >= 2.8.0
2021-10-02 19:01:24 720KB Python
1
Lattice LSTM神经网络法中文医学文本命名实体识别模型研究.pdf
2021-10-01 18:06:16 10.6MB 神经网络 深度学习 机器学习 数据建模
更好的NER 具有双向LSTM-CNN的命名实体识别 命名实体识别的双向LSTM_CNN的keras实现。 原始论文可以在找到 该实现与原始论文的不同之处在于: 不考虑词典 使用存储桶可加快培训速度 使用nadam优化程序代替SGD 结果 该模型在约70个时期内产生90.9%的测试F1得分。 对于给定的体系结构,本文产生的结果是91.14体系结构(带有emb + caps的BILSTM-CNN) 数据集 conll-2003 论文网络模型 使用Keras构建网络模型 运行脚本 python3 nn.py 要求 0) nltk 1) numpy 2) Keras==2.1.2 3) T
2021-09-30 20:26:03 1.05MB tensorflow word-embeddings keras cnn
1
cr: Entity Recognition of Traditional Chinese Medicine's Manual (https://tianchi.aliyun.com/competition/entrance/531824/information) The dataset includes 1000pcs marked data from Chinese medicine's manual. 13 kinds of entity are defined to mark the data. 本次标注数据源来自中药药品说明书,1000份训练数据,共定义了13类实体。 entity definition.xlsx terms of use.pdf
2021-09-29 18:17:36 53KB 数据集
1
使用google BERT进行CoNLL-2003 NER! 为了获得更好的性能,您可以尝试使用fennlp,有关更多详细信息,请参见fennlp。 BERT-NER版本2使用Google的BERT进行命名实体识别(CoNLL-2003作为数据集)。 原始版本(请参阅old_version以获得更多详细信息)包含一些硬代码,并且缺少相应的注释,因此不方便理解。 因此,在此更新版本中,有一些新的思想和技巧(关于数据预处理和图层设计)可以帮助您快速实现微调模型(您只需要
2021-09-29 15:08:15 2.09MB Python Deep Learning
1