搜索【分词文本】的结果

王斌《现代信息检索》课件

中科院计算所，讲述“信息检索”比较全的讲义，值得参考.

2022-03-18 11:28:31 12.53MB 信息检索 搜索引擎 中文分词 文本挖掘

1

文本预处理介绍文本预处理一般是指将原始数据通过数据转换,缺失处理等手段转化为符合要求的“新”数据集的过程。预处理本身是一件极其耗费时间的事情，繁琐且涉及细节很多。预处理做的不好，对后面的建模分析等等都会有很大的影响。对于自然语言的文本数据,处理过程一般包括文本清洗、分词等，其中每个步骤在中英文处理时都有些不同,如中文分词的难度远大于英文,而英文需要转换大小写、词形还原等步骤。接下来将会分别介绍中英文预处理中的重点环节，结合实际介绍和使用包括jeba,NLTK 等工具包,实现分词和词干提取等步骤,最后展示完成一个（词频统计）实际任务。一般来说,文本数据预处理的第一步是文本清洗，这个环节非

2021-10-26 15:35:32 46KB 分词 文本分析 替换

1

纯文本词典中文分词分词文本文本词典

文本词典中文分词分词文本纯文本词典中文分词分词文本文本词典信息检索

2021-10-23 16:45:58 1.64MB 文本词典 中文分词 分词文本

1

京东评论情感分析模型，主要包括1、数据获取及探索性分析；2、文本预处理、文本分词、文本向量化、特征提取、

2021-07-08 15:02:46 592KB 情感分析 京东评论

正向最大匹配分词算法及KNN文本分类算法python实现

这份代码是我们专业的一个实验，内容包含了文本分词和文本分类。分别使用了正向最大匹配算法和KNN算法。分词速度平均153295词/秒，189100字符/秒。文本分类使用tf-idf计算单词权重进行特征选择，我测试时选择前100个特征词，根据k的不同取值，分类的准确度平均为75%。

2021-05-13 10:48:42 15KB KNN NLP 正向最大匹配分词 文本分类

1

Spark中文分词+文本分类.rar

Scala中文分词+SparkML逻辑回归实现中文文本分类

2021-03-25 19:13:54 13.89MB SparkML Scala中文分词

1

pyltp-0.4.0-cp38-cp38-win_amd64.whl

哈工大分词window 64位

2021-03-24 18:01:28 608KB 分词 文本处理 词性标注

1

搜狗中文文本分析语料库

搜狗实验室新闻数据精简版，将xml文本进行处理后分类如下：奥运 5595个txt 房产 14695 个txt 互联网 2200个txt 健康 1153个txt 教育 2075个txt 旅游 1802个txt 汽车 1405个txt 商业 12465个txt 时尚 3490 个txt 体育 17237 个txt 文化 628个txt 娱乐 6757个txt 招聘 18个txt 由于是个人xml文本处理过的，处理了部分文档，如果需要更多可以联系我。免费下载链接：https://share.weiyun.com/X0prakLr

2019-12-21 18:52:17 83.69MB 搜狗语料库 jieba分词 文本分类

1

个人信息

热门下载

最新下载

其他资源