最大熵NER标记器 可在线获得。 概述 该项目的目标是实施和培训 。 大多数功能构建器功能都是使用实现的, 是用Python / Cython编写的具有工业实力的开源NLP库。 为了分类,使用最大熵(MaxEnt)分类器。 实施细节 此任务的数据集是语料库,该语料库主要由路透社新闻数据组成。 数据文件已经过预处理,并且每行已经包含一个令牌,其词性(POS)标签,BIO(开始,内部,外部缩写)组块标签以及相应的NER标签。 事实证明,SpaCy的内置对功能工程最为有用。 利用外部单词列表,例如作为一部分分发的Wikipedia地名词典,通常会导致标记准确性下降。 由于数据文件相对较大,因此最终提交中不包含地名词典的源代码和文件。 我还通过将先前的状态/标记作为功能进行了尝试,以提高模型的性能。 出乎意料的是,模型性能在很大程度上保持不变,这大概是由于每个标签都是从仍然在模型中编码的同一特征
2021-12-11 10:28:15 36.57MB classifier clustering spacy maxent
1
https://github.com/explosion/spacy-models/releases/download/en_core_web_md-2.0.0/en_core_web_md-2.0.0.tar.gz下载太慢,方便下载
2021-12-09 21:58:47 355.15MB en_core_web_sm en_core_web_md
1
textacy:NLP,spaCy之前和之后 textacy是一个基于高性能spaCy库的Python库,用于执行各种自然语言处理(NLP)任务。 通过将基础知识-令牌化,词性标记,依赖项解析等-委托给另一个库, textacy主要关注于之前和之后的任务。 产品特点 通过用于处理一个或多个文档的便捷方法访问spaCy,并通过自定义扩展名和自动语言识别扩展其功能,从而为文本应用正确的spaCy管道 下载包含文本内容和元数据的数据集,从国会演讲到历史文献再到Reddit评论 轻松以多种常用格式在磁盘之间传输数据 清理,规范化和浏览原始文本-在使用spaCy处理之前 灵活地从处理过的文档中提取单词,n-gram,名词块,实体,首字母缩写词,关键词和其他感兴趣的元素 通过各种相似性指标比较字符串,集合和文档 对文档进行标记和向量化,然后训练,解释和可视化主题模型 计算各种文本可读性统计信息,包括Flesch-Kincaid等级水平,SMOG索引和多语种Flesch Reading Ease ...还有更多! 链接 下载: : 文档: : 源代码: : 错误跟踪程序: : 维
2021-12-09 11:59:06 312KB python nlp natural-language-processing spacy
1
你好 :grinning_face: 内尔 使用NLTK和Spacy的NLP命名实体识别 def ner ( text ) docx = nlp ( text ) html = displacy . render ( docx , style = "ent" ) html = html . replace ("\n\ n ","\n") result = HTML_WRAPPER . format ( html )
2021-11-13 19:31:57 3KB HTML
1
spacy的中文语言包,包含组件:tok2vec、tagger、parser、sender、ner、attribute_ruler。 安装方式:pip install YOUR_PATH/zh_core_web_sm-3.1.0.tar.gz 使用方式: import spacy nlp = spacy.load("zh_core_web_sm")
2021-11-01 18:14:32 47.27MB 自然语言处理 NLP spacy
1
spacy 无需解压,下载后直接 pip install 即可,但需要放入指定路径
2021-10-14 12:08:23 12.99MB spacy
1
spacy是常用的python做NLP的包。适合spacy 2.3.0,github上中文的spacy语言包下载巨慢,这个希望快一点。MIT。
2021-10-12 18:48:24 75.22MB python spacy NLP
1
spaCy中的en_core_web_sm3.1.0
2021-09-16 22:05:00 12.99MB spaCy NLP
1
spaCy的zh_core_web_sm 3.1.0
2021-09-16 22:04:59 47.17MB NLP spaCy
1
Chinese multi-task CNN trained on OntoNotes. Assigns context-specific token vectors, POS tags, dependency parse and named entities.
2021-09-14 14:29:19 45.67MB spacy zh 汉语模型
1