bilstmcrf.zip
2022-01-16 12:05:33 11KB bilstm-crf 命名实体识别
1
自己给自己博客用的命名实体实体识别的数据
2022-01-04 13:53:12 14.5MB 命名实体识别
1
2014年的人民日报数据,总共有28万行,可直接做词性标注训练使用,处理后也可以做实体识别模型训练用。
2021-12-27 19:55:45 124.07MB nlp 词性标注 NER 命名实体识别
1
微软亚研的中文分词、词性标注和命名实体识别语料,包括训练和验证集,xml格式,方便使用,机器学习、信息检索以及NLP领域的研究人员使用来训练模型
1
政治网络 斯洛文尼亚政治数据的命名实体识别项目。 安装开发 # Python 2.7.6 mkvirtualenv --no-site-packages politiki workon politiki pip install --upgrade -r requirements.txt 使用的库和工具 准备和抓取数据 手动抓取每个门户或运行“./bin/small_crawl.sh”脚本 scrapy crawl delo -o data/urls/delo.csv -t csv -O --nolog 将 URL 列表合并为一个巨大的列表。 cat data/urls/*.csv | cut -d ',' -f1 | grep -v -e "url" | uniq -u > data/lists/big.txt 使用 Aria2 下载所有内容以供离线处理 aria2c --con
2021-12-17 22:38:57 9KB Python
1
恶毒的 基于实体级别F1分数的命名实体识别(NER)系统的评估脚本。 定义 Nadeau和Sekine(2007)已描述了此处实施的度量标准,该度量标准已广泛用作“消息理解会议”的一部分(Grishman和Sundheim,1996)。 它根据两个轴评估NER系统:是否能够为实体分配正确的类型,以及是否找到确切的实体边界。 对于两个轴,都计算正确的预测数(COR),实际的预测数(ACT)和可能的预测数(POS)。 从这些统计数据中,可以得出准确性和召回率: precision = COR/ACT recall = COR/POS 最终得分是对类型和边界轴的精度和召回率进行微平均的F1度量。 安装 pip install nereval 用法 当分类结果已写入JSON文件时,可以从Python内部使用此脚本,也可以从命令行使用该脚本。 从命令行使用 假设我们在input.json具有以下
1
最大熵NER标记器 可在线获得。 概述 该项目的目标是实施和培训 。 大多数功能构建器功能都是使用实现的, 是用Python / Cython编写的具有工业实力的开源NLP库。 为了分类,使用最大熵(MaxEnt)分类器。 实施细节 此任务的数据集是语料库,该语料库主要由路透社新闻数据组成。 数据文件已经过预处理,并且每行已经包含一个令牌,其词性(POS)标签,BIO(开始,内部,外部缩写)组块标签以及相应的NER标签。 事实证明,SpaCy的内置对功能工程最为有用。 利用外部单词列表,例如作为一部分分发的Wikipedia地名词典,通常会导致标记准确性下降。 由于数据文件相对较大,因此最终提交中不包含地名词典的源代码和文件。 我还通过将先前的状态/标记作为功能进行了尝试,以提高模型的性能。 出乎意料的是,模型性能在很大程度上保持不变,这大概是由于每个标签都是从仍然在模型中编码的同一特征
2021-12-11 10:28:15 36.57MB classifier clustering spacy maxent
1
简介-自然语言处理 汉良作者何晗老师的新书《自然语言处理入门》详细的笔记!业界良心之作,书中不是枯燥无味的公式罗列,甚至用白话分解的通俗易懂的算法模型。从基本概念出发,逐步介绍中文分词,词性标注,命名实体识别,信息删除,文本聚类,文本分类,句法分析这几个热门问题的算法原理与工程实现。 本项目初步帮助更多同路人能够快速的掌握NLP的专业知识,理清知识要点,在工作中发挥作用的作用。以书本为主,记录本人学习此书的心路历程,总结和笔记。 机器学习与深度学习请转至本人项目: HanLP项目: 思维导图,请关注AIArea公众号并回复:NLP思维导图,即能下载高清大图。 目录 章节
2021-12-06 11:58:27 6.96MB nlp ai deep-learning mechine-learing
1
张华平老师的分词包 用于命名实体识别 稍作修改 nlpir-中文分词工具和代码
2021-12-06 10:49:42 56.15MB nlpir 分词 命名实体识别
1
hmm的matlab代码HanLP: Han Language Processing 汉语言处理包 HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。 HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 HanLP提供下列功能: 中文分词 HMM-Bigram(速度与精度最佳平衡;一百兆内存) 、 由字构词(侧重精度,全世界最大语料库,可识别新词;适合NLP任务) 、 词典分词(侧重速度,每秒数千万字符;省内存) 所有分词器都支持: 词性标注 (速度快) 、(精度高) 命名实体识别 基于HMM角色标注的命名实体识别(速度快) 、、、、 基于线性模型的命名实体识别(精度高) 、 关键词提取 自动摘要 短语提取 多音字、声母、韵母、声调 简繁分歧词(简体、繁体、台湾正体、香港繁体) 语义推荐、拼音推荐、字词推荐 依存句法分析 KMeans、Repeated Bisection、自动推断聚类数目k 词向量训练、加载、词语相似度计算、语义运算、查询、KMeans聚类 文档语义相似度计算 部分默认模型训练自小型
2021-12-02 20:45:43 21.43MB 系统开源
1