NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。
2021-10-22 18:36:57 4.05MB 分词器 nlpir 张华平 词性标注
1
Ansj中文分词 使用帮助 开发文档: , 摘要 这是一个基于n-Gram + CRF + HMM的中文分词的java实现。 分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上。 目前实现了中文分词,中文姓名识别,用户自定义词典,关键字提取,自动摘要,关键字标记等功能。 可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。 专家 org.ansj ansj_seg 5.1.1 调用演示 如果你第一次下载只想测试测试效果可以调用这个简易接口 String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ; System.
2021-10-22 13:55:16 24.13MB java nlp chinese ansj
1
NLP学习指南 本教程致力于帮助同学们快速入门NLP,并掌握各个任务的SOTA模型。 各任务模型列表汇总:,,,(todo), 各任务概述和技巧:,文本匹配,序列标注,文本生成,语言模型 之后就可以开始逐个击破,但也不用死磕,控制好目标难度,先用三个月时间进行第一轮学习: 读懂机器学习,深度学习原理,不要求手推公式 了解经典任务的基准,动手实践,看懂代码 深入一个应用场景,尝试自己修改模型,提升效果 迈过了上面这道坎后,就可以重新回归理论,提高对自己的要求,某种手推公式,盲写模型,拿到比赛Top等。 第一步:基础原理 机器学习最初入门时对数学的要求不是很高,掌握基础的线性代数,概率论就可以了,正常读下来的理工科大学生以上应该都没问题,可以直接开始学,碰到不清楚的概念再去复习。 统计机器学习部分,建议初学者先看懂线性分类,SVM,树模型和图模型,这里推荐李航的“统计学习方法”,薄的摸起来没有
2021-10-20 20:00:38 17KB
1
百度地图标注 地址解析 反向地址解析 坐标转换
1
LAnn标注工具 当前情况 目前为封闭域关系三元组标注,不提供新关系的标注,之前开放域关系三元组版本将不再维护,不再维护,不再维护,存在BUG!存在BUG!存在BUG!。 计划脱离对Django框架的依赖,借助PyQt的WebEngine实现标注界面和Python程序数据传输,更好地支持Pytorch和数据处理,已基本打通JS和Python之间的墙壁。 计划加入预训练BERT模型。 LAnn简介 LAnn(Little Annotator)是一个用于标注三元组的纯前段中文标注工具。具有使用简单的特点,采用网页的形式,使用浏览器便可运行。标注过程、结果直观,易后处理。基本不用配置,快速上手。可只用于NER标注,也可以适当修改,改为POS标注(实体类型改为词性,只进行实体标注)或者分词标注(设置特殊的实体类型“词语”,只进行实体标注)。 可以先后导入test.txt、entity_dict,然
2021-10-20 13:24:27 6.82MB vim annotator ner relation-extraction
1
百度地图在范围内标注点
2021-10-20 12:13:56 10.34MB 范围 标注
1
labelImg-master YOLO标注
2021-10-19 17:08:06 6.83MB labelImg Yolo
1
基于HMM进行词性标注示例 把/? 这/? 篇/? 报道/? 编辑/? 一/? 下/? 把/q-p-v-n 这/r 篇/q 报道/v-n 编辑/v-n 一/m-c 下/f-q-v
2021-10-19 15:53:23 766KB 隐马尔科夫 自然语言
1
CwsPosNerEntityRecognition 中英文Cws Pos Ner实体识别工具,使用CNN双向lstm和crf模型,并带有char嵌入。基于字向量的CNN池化双向BiLSTM与CRF模型的网络,可能一体化的完成中文和英文分词,词性标注,实体识别。主要包括原始文本数据,数据转换,训练脚本,预训练模型,可用于序列标注研究。注意:唯一需要实现的逻辑是将用户数据转化为序列模型。分词准确率约为93%,词性标注准确率约为90%,实体标注(在本样本上)约为85%。 提示 中文分词,词性标注,实体识别,在使用上述模型时,本质是就是标注问题!!!如果您第一次使用相关的模型,只需加上self.c
2021-10-18 22:10:58 52.4MB nlp tensorflow crf keras
1
aflw的标签数据,自己做的,带程序
2021-10-18 21:44:50 595KB 数据集
1