jieba分词是目前最好的 python中文分词组件。在讲解jieba分词之前,我们先了解一下中文分词的一些概念: 最常用的TF-IDF 什么是TF-IDF呢?要分成2个部分来理解。 TF,词频——一个词在文章中出现的次数 IDF,在词频的基础上,赋予每个词一个权重,体现该词的重要性。 这是什么意思呢?我们来看个例子。 这是一条财经类新闻 上周 / 沉寂 / 一段 / 时间 / 的 / 白酒股 / 卷土重来 / ;/ 其中 / 古井贡酒 / 的 / 股价 / 创出 / 了 / 历史新高 / , / 这段 / 时间 / …… … 在这篇文章中 上周:出现 1 次 时间:出现 2 次 白酒股:出现
2023-11-15 15:21:07 39KB jieba 中文分词
1
TihuanWords.txt文档格式 注意:同一行的词用单个空格隔开,每行第一个词为同行词的替换词。 年休假 年假 年休 究竟 到底 回家场景 我回来了 代码 import jieba def replaceSynonymWords(string1): # 1读取同义词表,并生成一个字典。 combine_dict = {} # synonymWords.txt是同义词表,每行是一系列同义词,用空格分割 for line in open(TihuanWords.txt, r, encoding='utf-8'): seperate_word = line.str
2023-01-29 10:29:39 48KB ie jieba python
1
针对jieba分词作业做一个总结,方便以后查看。 中文分词 分词,即切词,在NLP文本预处理中经常使用一些方法来对文本进行分词,从而使文本从“字序列”升级到“词序列”。 为什么要进行分词?在中文中,一个个汉字有其自身的含义,但是组成词语时,其含义可能会发生很大的变化,使得之后进行文本处理任务时不能很好的理解句子的含义。(比如“和”,“平”,“和平”,三者的含义有很大的不同。)另外,从字序列升级成词序列,可以使模型能够得到更高级的特征。 分词算法有很多,比如正向最大匹配算法,逆向最大匹配算法,双向最大匹配算法,基于统计的分词方法,隐马尔可夫模型分词法,神经网络分词法等等。 jieba分词 ji
2022-06-27 16:44:41 60KB ie jieba 中文分词
1
#Python统计西游记主要人物出场次数(使用jieba分词) 1. 建立西游记主要人物表及其别名; 2. 读入西游记原文txt文件并使用jieba分词; 3. 统计所有分词中出现各人名的次数。
2022-05-09 12:58:31 800KB python jieba 西游记 统计
jieba青春有你2自定义分词词典,青春有你2评论爬取,青春有你2视频饭圈自定义分词词典,jieba分词Python分词词典
2022-03-28 09:45:31 499B jieba 分词词典 自定义 Python
1
jieba-0.42.1.tar.gz下载 jieba-0.42.1.tar.gz下载 jieba-0.42.1.tar.gz下载
2022-01-17 11:54:26 18.32MB jieba 分词
1
jieba分词jieba分词jieba.NET-master.zip
2021-12-29 20:29:44 5.13MB jieba jieba分词 C#
1
最新版本的开源jieba分词java版本,有关键词提取功能!!
2021-12-28 23:24:01 7.37MB 主题提取 最新版本
1
文件内包含 jieba 百度60万+分词词库(带词性权重和不带词性权重的文件各一份),附带停用词词库,词性和权重由机器学习等技术手段生成,持续优化中,欢迎私信提供宝贵意见。
2021-12-27 16:04:54 5.78MB python nlp jieba 分词
python实现豆瓣短评的爬虫程序,并经过数据预处理和JieBa分词,统计词频,最终生成次云.zip
2021-12-08 16:02:50 8.12MB python 爬虫