中科院计算所,讲述“信息检索”比较全的讲义,值得参考.
2022-03-18 11:28:31 12.53MB 信息检索 搜索引擎 中文分词 文本挖掘
1
文本预处理介绍 文本预处理一般是指将原始数据通过数据转换,缺失处理等手段转化为符合要求的“新”数据集的过程。预处理本身是一件极其耗费时间的事情,繁琐且涉及细节很多。预处理做的不好,对后面的建模分析等等都会有很大的影响。 对于自然语言的文本数据,处理过程一般包括文本清洗、分词等,其中每个步骤在中英文处理时都有些不同,如中文分词的难度远大于英文,而英文需要转换大小写、词形还原等步骤。 接下来将会分别介绍中英文预处理中的重点环节,结合实际介绍和使用包括jeba,NLTK 等工具包,实现分词和词干提取等步骤,最后展示完成一个(词频统计)实际任务。 一般来说,文本数据预处理的第一步是文本清洗,这个环节非
2021-10-26 15:35:32 46KB 分词 文本分析 替换
1
文本词典 中文分词 分词文本 纯文本词典 中文分词 分词文本 文本词典 信息检索
2021-10-23 16:45:58 1.64MB 文本词典 中文分词 分词文本
1
京东评论情感分析模型,主要包括1、数据获取及探索性分析;2、文本预处理、文本分词、文本向量化、特征提取、
2021-07-08 15:02:46 592KB 情感分析 京东评论
这份代码是我们专业的一个实验,内容包含了文本分词和文本分类。分别使用了正向最大匹配算法和KNN算法。分词速度平均153295词/秒,189100字符/秒。文本分类使用tf-idf计算单词权重进行特征选择,我测试时选择前100个特征词,根据k的不同取值,分类的准确度平均为75%。
2021-05-13 10:48:42 15KB KNN NLP 正向最大匹配分词 文本分类
1
Scala中文分词+SparkML逻辑回归 实现 中文文本分类
2021-03-25 19:13:54 13.89MB SparkML Scala中文分词
1
哈工大分词window 64位
2021-03-24 18:01:28 608KB 分词 文本处理 词性标注
1
搜狗实验室新闻数据精简版,将xml文本进行处理后分类如下: 奥运 5595个txt 房产 14695 个txt 互联网 2200个txt 健康 1153个txt 教育 2075个txt 旅游 1802个txt 汽车 1405个txt 商业 12465个txt 时尚 3490 个txt 体育 17237 个txt 文化 628个txt 娱乐 6757个txt 招聘 18个txt 由于是个人xml文本处理过的,处理了部分文档,如果需要更多可以联系我。 免费下载链接:https://share.weiyun.com/X0prakLr
2019-12-21 18:52:17 83.69MB 搜狗语料库 jieba分词 文本分类
1