7k个脏词,仅作为小站点过滤敏感词汇使用,从GitHub上看到的
2023-11-25 22:46:11 468KB mysql
1
最近跑代码在数据处理分词部分总是需要停用词表,一样一样找太麻烦了,干脆整个合集,方便后续使用。
2023-09-23 21:10:09 49KB 停用词 中文自然语言处理 分词
1
中文停用词 停用词表 停用词 中文信息处理
1
中文停用词表(包含900个中文停用词) 中文停用词表(包含900个中文停用词)
2023-05-06 00:52:52 5KB 中文 停用词
1
(完整版)Java基础英语单词表.doc
2023-04-07 13:15:22 46KB 互联网
1
一个比较全的中文停用词表,可以供研究搜索引擎的朋友们使用~好的宝贝,果断共享之~
2023-03-31 13:40:23 3KB 中文 停用词 词表
1
包括了39个行业的关键词词表,本资源为互联网资源,更新日期为20090925
2023-01-31 21:29:51 2.39MB 关键词 词表
1
常用的停用词表,包括哈工大(hit)、百度(baidu)、四川大学机器智能实验室停用词库(scu)、中文停用词表(cn),以及汇总的停用词表(all)
2022-12-21 15:58:30 36KB 停用词表
1
WikiText 英语词库数据(The WikiText Long Term Dependency Language Modeling Dataset)是一个包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到,包括WikiText-2和WikiText-103两个版本,相比于著名的 Penn Treebank (PTB) 词库中的词汇数量,前者是其2倍,后者是其110倍。每个词汇还同时保留产生该词汇的原始文章,这尤其适合当需要长时依赖(long term dependency)自然语言建模的场景。
2022-12-11 20:31:45 373.39MB 自然语言理解 NLP 英文词库 英文词表
1
GB/T 19486-2004 电子政务主题词表编制规则
2022-12-09 11:28:35 630KB 电子政务 编制规则 国家标准
1