不错的三类工具包,这里分享下,里面有代码,以及我遇到的一些问题说明。
2022-02-09 14:13:47 3.95MB 条件随机场
1
使用tensorflow实现的中文实体识别LSTM+CRF(简单界面)
2022-01-25 14:13:19 14.77MB LSTM CRF
1
bilstmcrf.zip
2022-01-16 12:05:33 11KB bilstm-crf 命名实体识别
1
CRFSegment 用CRF++实现基于条件随机场模型的中文分词 更多详细介绍可以查看文章:
2022-01-15 09:46:08 2.37MB Perl
1
pycrfpp python CRF++实现分词 train and test 训练 训练数据采用1998年1月份人民日报的标注数据 tag => B M E S 训练模型调用接口 crf_model = CRFModel(model='model/model') crf_model.crf_learn(filename='data/199801\u4eba\u6c11\u65e5\u62a5.data') 参数model为保存模型的路径, filename为标注数据路径 测试 crf_model = CRFModel(model='model/model') data = crf_model.crf_test(tag_data=data) 测试结果 既往青霉素、链霉素、磺胺类药物过敏史<@>既_往_青霉素_、链_霉素、_磺_胺类_药物_过敏史 对“鸡蛋”等多种食物过敏<@>对_“鸡蛋”_等_多种_食物_过敏 对降脂药“非诺贝特
2022-01-12 10:21:27 38.55MB Python
1
条件随机场的推导和详细叙述
2021-12-17 17:07:53 319KB crf
1
PyDenseCRF 这是PhilippKrähenbühl (第2版,)的(基于Cython的)Python包装器。 如果您将此代码用于reasearch,请引用: Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials Philipp Krähenbühl and Vladlen Koltun NIPS 2011 并以脚注或引用的形式提供到此存储库的链接。 安装 该软件包位于PyPI上,因此只需运行pip install pydensecrf即可安装它。 如果您想要最新的版本,可以通过执行以下命令进行安装: pip install git+https://github.com/lucasb-eyer/pydensecrf.git 并忽略了来自本征的所有警告。 请注意,此包装器需要相对较新的Cython版本(至少0.22版),而Ubuntu 14.04随附的版本太旧。 (感谢Scott Wehrwein指出这一点。)我建议您使用并在那里安装最新版本的Cython( pip ins
2021-12-11 22:48:46 1.86MB machine-learning computer-vision crf cython
1
NER的BERT-BILSTM-GCN-CRF 在原本BERT-BILSTM-CRF上融合GCN和词性标签等做NER任务 数据格式 高B-剧种B-名词腔I-剧种I-名词:OO马B-人名B-名词平I-人名I-名词所OO着O B动词扶O B动词贫O I动词小O B -名词I O-名词 运行
2021-12-06 16:00:54 182KB Python
1
BiLSTM + CRF用于顺序标记任务 :rocket: :rocket: :rocket: BiLSTM + CRF模型的TensorFlow实现,用于序列标记任务。 项目特色 基于Tensorflow API。 高度可扩展; 一切都是可配置的。 模块化,结构清晰。 对初学者非常友好。 容易DIY。 任务与模型 Sequential labeling是对NLP中的序列预测任务进行建模的一种典型方法。 常见的顺序标记任务包括例如 词性(POS)标记, 块, 命名实体识别(NER) 标点恢复 句子边界检测 范围检测 中文分词(CWG) , 语义角色标签(SRL) 口语理解能力 事件提取 等等... 以命名实体识别(NER)任务为例: Stanford University located at California . B-ORG I-ORG O O B-LOC O 在这里,将提取两个实体, Stanford University和California 。 特别是,文本中的每个token都用相应的label 。 例如
2021-12-01 11:51:53 73.89MB nlp tensorflow ner python35
1
Chinese NER Project 本项目为CLUENER2020任务baseline的代码实现,模型包括 BiLSTM-CRF BERT-base + X (softmax/CRF/BiLSTM+CRF) Roberta + X (softmax/CRF/BiLSTM+CRF) 本项目BERT-base-X部分的代码编写思路参考 。 项目说明参考知乎文章: Dataset 实验数据来自。这是一个中文细粒度命名实体识别数据集,是基于清华大学开源的文本分类数据集THUCNEWS,选出部分数据进行细粒度标注得到的。该数据集的训练集、验证集和测试集的大小分别为10748,1343,1345,平均句子长度37.4字,最长50字。由于测试集不直接提供,考虑到leaderboard上提交次数有限,本项目使用CLUENER2020的验证集作为模型表现评判的测试集。 CLUENER2020共有10个
2021-11-29 23:16:05 12.45MB pytorch named-entity-recognition ner bert
1