搜索【分词】的结果

停用词stop.txt

结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表、以及网络上较大的一份无名称停用词表,整理的停用词表

2023-04-16 11:59:17 18KB 停用词 分词

1

word分词器java源码-RAKE-Java:快速自动关键字提取框架(RAKE)的Java实现

word分词器java源码RAKE-Java 快速自动关键字提取 (RAKE) 算法的 Java 8 实现，如：Rose, S.、Engel, D.、Cramer, N. 和 Cowley, W. (2010) 中所述。从单个文档中自动提取关键字。在 MW Berry & J. Kogan（编辑），文本挖掘：理论和应用：John Wiley & Sons。实现是基于 python 的（但是做了一些更改）源代码在 GPL V3License 下发布。将此存储库添加到您的 POM.XML 是否要与 maven 一起使用 < repository > < id >galan-maven-repo</ id > < name >galan-maven-repo-releases</ name > < url >http://galan.ehu.es/artifactory/ext-release-local</ url > </ repository > 此实现需要使用 POS 标记器才能工作。例如，伊利诺伊州词性标注器可用于英语。对于西班牙语或其他语言：自由灵 --> 或斯坦福

2023-04-08 22:38:41 25KB 系统开源

1

中文分词加自动提取关键字

中文分词词频统计罗列出要自动提取的关键词

2023-04-04 13:08:15 2.59MB 中文分词 自动提取关键词 词频统计

1

CRF++ 训练中文分词

CRF++ 训练中文分词,文件后缀有3标示3列的语料，文件后缀有2，表示2列的语料训练

2023-03-29 20:29:09 2.61MB CRF++ 分词

1

maven 构建好的 IK 分词器，可直接使用

用于 Elasticsearch 2.2 的中文分词器，已构建好，直接放入 Elasticsearch 的plugins 目录下使用

2023-03-11 02:27:33 3.97MB ik elastic search

1

文本分类之词频统计（分词、词干提取、去停用词、计算词频，有界面）

主要是读取文本，然后进行分词、词干提取、去停用词、计算词频，有界面，很实用

2023-03-10 13:37:17 70KB 词频计算

1

javascript的分词程序

javascript版本的分词程序，非常有用，我自己的项目用它

2023-03-05 10:38:52 38KB js 分词

1

jsdiff:Javascript 分词算法

jsdiff 概述用于逐字比较文本的 diff 算法的 Javascript 实现。文档 diff_words(old, new)：逐字比较两个文本块，使用 html del和ins标签呈现输出。

2023-03-05 10:35:54 3KB JavaScript

1

Python英文文本分词(无空格)模块wordninja的使用实例

在NLP中，数据清洗与分词往往是很多工作开始的第一步，大多数工作中只有中文语料数据需要进行分词，现有的分词工具也已经有了很多了，这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理，如果英文数据中没有了空格，那么应该怎么处理呢？今天介绍一个工具就是专门针对上述这种情况进行处理的，这个工具叫做：wordninja，地址在这里。下面简单以实例看一下它的功能: def wordinjaFunc(): ''' https://github.com/yishuihanhan/wordninja ''' import wordninja print word

2023-03-04 00:25:50 50KB dn IN ni

1

Chinese-Names-Corpus:中文人名语料库。人名生成器。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别

中文人名语料库（Chinese-Names-Corpus）业余项目“萌名NameMoe（一个基于语料库技术的取名工具）”的副产品。萌名手机网页测试版：，欢迎体验。不定期更新。只删词，不加词。可用于中文分词、人名识别。请勿将本库打包上传其他网站挣积分，已上传的请配合删除，谢谢！中文常见人名（Chinese_Names_Corpus）数据大小：120万。语料来源：从亿级人名语料中提取。数据清洗：已清洗，但仍存有少量badcase。新增人名生成器。中文古代人名（Ancient_Names_Corpus）数据大小：25万。语料来源：多个人名词典汇总。数据清洗：已清洗。中文姓氏（Chinese_Family_Name）数据大小：1千。语料来源：从亿级人名语料中提取。数据清洗：已清洗。中文称呼（Chinese_Relationship）数据大小：5千，称呼词根

2023-02-23 16:26:55 17.62MB corpus names dataset dict

1

个人信息

热门下载

最新下载

其他资源