NLP民工的乐园 最强大的NLP武器库 NLP民工的乐园:几乎最全的中文NLP资源库 词库 工具包 学习资料 在入门到熟悉NLP的过程中,用到了很多github上的包,遂整理了一下,分享在这里。 很多包非常有趣,值得收藏,满足大家的收集癖!如果觉得有用,请分享并star,谢谢! 长期不定时更新,欢迎手表和叉子! 涉及内容包括但不限于:中英文敏感词,语言检测,中外手机/电话归属​​地/运营商查询,名字,名称,性别,手机号撤回,身份证删除,邮箱删除,中日文人名库,中文缩写库,拆字字典,词汇情感值,替换词,反动词表,暴恐词表,繁简体转换,英文模拟中文最佳,汪峰歌词生成器,职业名称词库,词典库,反义词库,否定词库,汽车品牌词库,汽车零件词库,连续英语切割,各种中文词向量,公司名称大全,古诗词库,IT词库,财经词库,成语词库,地名库,历史名人词库,诗词词库,医学词库,饮食词库,法律词库,汽车词库,动
2021-11-25 15:48:32 69.21MB Python
1
文本文件,四十万汉语大词库 已确认过,每行一个词汇,没有重复词汇,可用于中文分词
2021-11-25 15:03:58 1.19MB 词库 中文分词
1
搜狗输入法细胞词库-网络流词201904,已经处理好可以直接加到IK的字典中进行分词,不需要其他处理。(今天一看居然被调分调到50了,我觉得不值啊,调一下分)
2021-11-25 14:31:09 214KB IK分词 扩展字典 JAVA 搜狗输入法
1
搜狗输入法安卓开发程序员词库(史上最全,实时更新)双击一键安装
2021-11-25 14:21:03 15KB 安卓 词库 狗搜输入法 程序员词库
1
中国行政地域(省、市、乡、镇、区、街道办)大全(词库)
2021-11-23 11:29:26 12.66MB 行政地域 词库 词表
1
搜狗地名词库 scel格式 可以下载相关转化器,获取txt格式的数据
2021-11-23 11:26:35 3.67MB 地名 词库
1
甲言Jiayan 简介 甲言,取“Oracle言”之意,是一种专注于古汉语处理的NLP工具包。目前通用的汉语NLP工具均以现代汉语为核心语料,对古代汉语的处理效果很差(详见)。本项目的初衷,便是辅助古汉语信息处理,帮助有志于挖掘古文化矿藏的古汉语学者,爱好者等更好的地分析和利用文言资料,从“文化遗产”中创造出“文化新产”。当前版本支持,,,和五项功能,更多功能正在开发中。 功能 利用无监督的双,以及左右进行文言词库自动生成。 利用无监督,无词典的和进行古汉语自动分词。 利用词库合成功能产生的文言词典,基于有向无环词图,句子最大概率路径和动态规划算法进行分词。 根据词的的序列标注,词性详见。 基
1
格式: 序号 单词 词频 词性 词性请参考:http://ictclas.org/ictclas_docs_003.html http://hi.baidu.com/drkevinzhang/blog/category/ictclas%B7%D6%B4%CA/index/1 自己做毕设整理的分词词库,使用中科院的标注集合北大标注集,也就是两种标注混合用的。每个词一个词性,也有词频。由于使用多个词典整合的,词频不是特别准。但是能满足一般的需求。 容量为29.8w. 包含了三级地名、名胜、重要山川河流、一万左右的成语。由于一部分词来自搜狗互联网词库,有些词明显是拼写时常连着拼而不是词。对词库要求高的用户需要另寻良方。 推荐一个对我做分词帮助很大的网站 www.52nlp.cn
2021-11-19 15:22:05 2.9MB 分词 词库
1
5118散文作文行业词库下的38个公开的高频词数据,并非完整高频词数据。 同时由于所有等级的VIP账号单个高频词最高下载量均为50W关键词。
1
QQ群机器人酷Q语言库、词库_2013.7.15, 2013最新词库,此条很大,容量大约600kb
2021-11-18 11:24:21 250KB 词库 机器人 qq
1