使用tensorflow实现的中文实体识别LSTM+CRF(简单界面)
2022-01-25 14:13:19 14.77MB LSTM CRF
1
命名实体识别(NE)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。 命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
2022-01-21 16:51:36 859KB 命名实体识别
1
本方法是基于BIOES标注的,如果为其它,请自行修改代码 正常ONE-HOT标注数据是按字标注的:如 反 复 胸 痛 1 5 年 B-PL E-PL B-ZZ E-ZZ B-SJ I-SJ E-SJ 经过BERT分词器分词后为: 反 复 胸 痛 15 年 这时候label就要重新修复下偏移了,修复后结果如下: B-PL E-PL B-ZZ E-ZZ B-SJ E-SJ
2022-01-19 14:02:57 1KB 自然语言处理 bert 人工智能 nlp
1
bilstmcrf.zip
2022-01-16 12:05:33 11KB bilstm-crf 命名实体识别
1
NLP常用数据集:BosonNLP_NER_6C、Chinese-NLP-Corpus(NER:Weibo、People's Daily、MSRA;识别:BDCI_Car_2018)、CoNLL、OntoNotes-5.0-NER-BIO-master
2022-01-12 12:08:04 128.7MB NLP 数据集 NER实体识别
1
自己给自己博客用的命名实体实体识别的数据
2022-01-04 13:53:12 14.5MB 命名实体识别
1
基于neo4j,django,pytorch,py2neo的电影图谱及问答 功能主要包括实体识别、实体查询、关系查询以及问答几个模块。 项目中用到的数据来自网上公开数据集 前端页面参考:https://github.com/qq547276542/Agriculture_KnowledgeGraph,在此表示非常感谢。 准备数据及构建实体及关系 note:以下数据导入是在Neo4j控制台上完成,将数据data/node与data/relation放入neo4j安装目录下import文件夹下: 三类实体(节点): 实体类型 数据文件 数量 说明 Movie Movie.csv 4587 电影实体 Person Person.csv 22937 人员实体 Country Country.csv 84 国家实体 四类关系: 关系类型 主语
2021-12-27 21:47:43 14.45MB django neo4j pytorch py2neo
1
2014年的人民日报数据,总共有28万行,可直接做词性标注训练使用,处理后也可以做实体识别模型训练用。
2021-12-27 19:55:45 124.07MB nlp 词性标注 NER 命名实体识别
1
微软亚研的中文分词、词性标注和命名实体识别语料,包括训练和验证集,xml格式,方便使用,机器学习、信息检索以及NLP领域的研究人员使用来训练模型
1
政治网络 斯洛文尼亚政治数据的命名实体识别项目。 安装开发 # Python 2.7.6 mkvirtualenv --no-site-packages politiki workon politiki pip install --upgrade -r requirements.txt 使用的库和工具 准备和抓取数据 手动抓取每个门户或运行“./bin/small_crawl.sh”脚本 scrapy crawl delo -o data/urls/delo.csv -t csv -O --nolog 将 URL 列表合并为一个巨大的列表。 cat data/urls/*.csv | cut -d ',' -f1 | grep -v -e "url" | uniq -u > data/lists/big.txt 使用 Aria2 下载所有内容以供离线处理 aria2c --con
2021-12-17 22:38:57 9KB Python
1