前言 jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。 分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 支持三种分词模式       1 精确模式,试图将句子最精确地切开,适合文本分析;       2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快
2021-11-24 22:49:33 50KB ie jieba python
1
使用scrapy框架对csdn热榜前100的标题热词爬虫,并且统计关键词词频。注意一下,该项目是2021年10月开发,如果页面有变动,xpath需要稍微调整。
2021-11-15 17:02:55 60KB scrapy 爬虫 jieba关键词提取 selenium
1
python和jieba库进行简单文本处理之天龙八部小说导入jieba和gensim库数据清洗,处理小说和人物名称文本文章排版分析之统计章标题文章篇章分析之谁是天龙八部小说的主角文章用词分析之出现最多的四字词文本相似度分析结束语 本文会涉及到一些内置函数,正则化表达式,文本写作风格挖掘(排版,篇章,用词),简单的文本相似度比较 本人大一新手一枚≧∇≦,偶然碰到某次作业为简单文本处理,就写了这文章来给需要的小伙伴提供点思路,代码中有许多不足,希望各位大佬可以指正下哈!多谢啦^ _ ^! 天龙八部小说和人物名字txt文本大家可以去网上找,很多热心小伙伴会发的. 导入jieba和gensim库 我一
2021-11-15 13:05:56 84KB ie jieba python
1
最近被线段树一卡,卡的我啥也不会了,也就一个星期没写博客。 正巧女朋友学python,之前也跟着凑凑热闹,正巧最近问了我一个题:如何用jieba库统计水浒传人物出现得次数,并且输出前20名得人物。 想了想直接暴力不久完了,管他多暴力呢 文章目录思路预先处理代码部分运行结果 思路 主要思路:其实就是用jieba库先将文章进行拆分,然后我们创建一个字典,用来统计每个人物出现得次数,当然这里可能就会出现一个问题了,有些不是人名得词语也会被统计上,那怎么办呢?我们可以先将人名输入到一个列表当中,循环记录次数得时候判断人名是否存在在列表当中(我认为很暴力) 预先处理 1. 什么?你要将水浒传所有人名
2021-11-10 23:33:07 111KB ie jieba
1
分享python jieba库 优秀的第三方中文分词库
2021-11-09 19:35:14 18.32MB python 第三方库
1
新人小菜鸟又来写博客啦!!!没人表示不开心~~(>_<)~~ 今天我来弄一个简单的关键词提取的代码 文章内容关键词的提取分为三大步: (1) 分词 (2) 去停用词 (3) 关键词提取 分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。 具体代码如下: import jieba import jieba.analyse #第一步:分词,这里使用结巴分词全模式 text = '''新闻,也叫消息,是指报纸、电台、电视台、互联网经常使用的记录社会、传播信息、反映时代的一种文体,具有真实性、时效性、简洁性、可读性、准确性的特点。新闻概念有广义与狭义之分。就其
2021-11-06 17:33:23 57KB jieba python 关键
1
零基础Python做词云 网上做词云的教程无数,大多都是各种乱七八糟的库一大堆,其实词云超简单,come on!一起coding! 工具: Python (3以后的版本随意) IDE:Pycharm (IDE就是方便coding的一个程序,不会安装可以参考另一篇文章) 用到的库:worldcloud,imageio,jieba 正文讲解: 关于库: wordcloud: 要想词云做的好,wordcloud少不了,worldcloud用于生成词云。 用到的函数:wordcloud.WordCloud().generate() : 就是这个函数造出的词云,第一个括号里填词云的各种参数,第二个括号里
2021-11-04 17:54:36 283KB coding jieba python
1
自然语言处理 / jieba分词自定义停用词,共2600行 / txt文件 / stopwords / 学习工作都用得上
2021-10-29 17:52:50 20KB stopwords jieba nlp jieba分词停用词
1
java jieba包最全资源。 java项目中新建一个文件夹lib,并将jar包复制到lib文件夹中。 选中jieba-analysis-1.0.2,右键点击【Build Path】→【Add to Build Path 】之后该jar包就已经成功添加到了java项目中了。此时你的java项目中多了一个Referenced Libraries 库,该库里面就是成功添加的jieba-analysis-1.0.2包 右键点击java项目名,点击【Build Path】→【Configure Build Path】→【Java Build Path】→【Libraries】之后,在弹出的properties窗口中可以发现多了一个右键点击java项目名,点击【Build Path】→【Configure Build Path】→【Java Build Path】→【Libraries】之后,在弹出的properties窗口中可以发现多了一个servlet-api.jar库。库。
2021-10-26 14:30:08 4.24MB java jieba 1.0.2
1
TextGrocery:一简单高效的短文本分类工具,基于 LibLinear 和 Jieba
2021-10-24 21:37:45 83KB 自然语言处理
1