最近跑代码在数据处理分词部分总是需要停用词表,一样一样找太麻烦了,干脆整个合集,方便后续使用。
2023-09-23 21:10:09 49KB 停用词 中文自然语言处理 分词
1
用于中文分词的停用词列表。 在我的python专栏的文章《2020年上半年过去了,来给日记画个词云图呀~》https://blog.csdn.net/crack6677/article/details/107074014中用到的就是这个停用词列表文档。
2023-09-16 10:29:40 16KB 停用词
1
中文停用词 停用词停用词 中文信息处理
1
2022年全国数据分析大赛B题目全部代码,餐饮评价情感倾向包含分词,建模等操作
2023-05-09 23:45:57 54.6MB 情感分析 数学建模 分词 停用词
1
中文停用词表(包含900个中文停用词) 中文停用词表(包含900个中文停用词)
2023-05-06 00:52:52 5KB 中文 停用词
1
结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表、以及网络上较大的一份无名称停用词表,整理的停用词
2023-04-16 11:59:17 18KB 停用词 分词
1
一个比较全的中文停用词表,可以供研究搜索引擎的朋友们使用~好的宝贝,果断共享之~
2023-03-31 13:40:23 3KB 中文 停用词 词表
1
医学stop_words.txt,这个版本适合医学数据的数据,EMR以及相关文献和书籍数据,医学文本stop_words集合;医学stop_words.txt,这个版本适合医学数据的数据,EMR以及相关文献和书籍数据,医学文本stop_words集合;医学stop_words.txt,这个版本适合医学数据的数据,EMR以及相关文献和书籍数据,医学文本stop_words集;医学stop_words.txt,这个版本适合医学数据的数据,EMR以及相关文献和书籍数据,医学文本stop_words集合;医学stop_words.txt,这个版本适合医学数据的数据,EMR以及相关文献和书籍数据,医学文本stop_words集合
1
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
2023-03-10 13:37:17 70KB 词频计算
1
Python 豆瓣书评 bs4多页爬虫 jieba中文分词 tf-idf向量化 kmeans聚类+统计词频 +停用词 douban图书评价 浏览器多页爬虫 jupyter notebook numpy pandas sklearn 数据分析 数据挖掘
2023-03-09 10:46:03 1.57MB 爬虫 NLP kmeans 数据挖掘
1