最近被线段树一卡,卡的我啥也不会了,也就一个星期没写博客。 正巧女朋友学python,之前也跟着凑凑热闹,正巧最近问了我一个题:如何用jieba库统计水浒传人物出现得次数,并且输出前20名得人物。 想了想直接暴力不久完了,管他多暴力呢 文章目录思路预先处理代码部分运行结果 思路 主要思路:其实就是用jieba库先将文章进行拆分,然后我们创建一个字典,用来统计每个人物出现得次数,当然这里可能就会出现一个问题了,有些不是人名得词语也会被统计上,那怎么办呢?我们可以先将人名输入到一个列表当中,循环记录次数得时候判断人名是否存在在列表当中(我认为很暴力) 预先处理 1. 什么?你要将水浒传所有人名
2021-11-10 23:33:07 111KB ie jieba
1
分享python jieba库 优秀的第三方中文分词库
2021-11-09 19:35:14 18.32MB python 第三方库
1
新人小菜鸟又来写博客啦!!!没人表示不开心~~(>_<)~~ 今天我来弄一个简单的关键词提取的代码 文章内容关键词的提取分为三大步: (1) 分词 (2) 去停用词 (3) 关键词提取 分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。 具体代码如下: import jieba import jieba.analyse #第一步:分词,这里使用结巴分词全模式 text = '''新闻,也叫消息,是指报纸、电台、电视台、互联网经常使用的记录社会、传播信息、反映时代的一种文体,具有真实性、时效性、简洁性、可读性、准确性的特点。新闻概念有广义与狭义之分。就其
2021-11-06 17:33:23 57KB jieba python 关键
1
零基础Python做词云 网上做词云的教程无数,大多都是各种乱七八糟的库一大堆,其实词云超简单,come on!一起coding! 工具: Python (3以后的版本随意) IDE:Pycharm (IDE就是方便coding的一个程序,不会安装可以参考另一篇文章) 用到的库:worldcloud,imageio,jieba 正文讲解: 关于库: wordcloud: 要想词云做的好,wordcloud少不了,worldcloud用于生成词云。 用到的函数:wordcloud.WordCloud().generate() : 就是这个函数造出的词云,第一个括号里填词云的各种参数,第二个括号里
2021-11-04 17:54:36 283KB coding jieba python
1
自然语言处理 / jieba分词自定义停用词,共2600行 / txt文件 / stopwords / 学习工作都用得上
2021-10-29 17:52:50 20KB stopwords jieba nlp jieba分词停用词
1
java jieba包最全资源。 java项目中新建一个文件夹lib,并将jar包复制到lib文件夹中。 选中jieba-analysis-1.0.2,右键点击【Build Path】→【Add to Build Path 】之后该jar包就已经成功添加到了java项目中了。此时你的java项目中多了一个Referenced Libraries 库,该库里面就是成功添加的jieba-analysis-1.0.2包 右键点击java项目名,点击【Build Path】→【Configure Build Path】→【Java Build Path】→【Libraries】之后,在弹出的properties窗口中可以发现多了一个右键点击java项目名,点击【Build Path】→【Configure Build Path】→【Java Build Path】→【Libraries】之后,在弹出的properties窗口中可以发现多了一个servlet-api.jar库。库。
2021-10-26 14:30:08 4.24MB java jieba 1.0.2
1
TextGrocery:一简单高效的短文本分类工具,基于 LibLinear 和 Jieba
2021-10-24 21:37:45 83KB 自然语言处理
1
《python语言程序设计基础》中所要求的课后作业,但是仿佛在书里并没有同步配置资源,为了方便大家的学习生活计划,我决定将它分享予大家。今天也要加油鸭!
2021-10-19 22:16:58 1.69MB 嵩天书 红楼梦 jieba
1
通过jieba分词工具,载入自定义词典和停用词库,来获取词频高的关键词,本脚本只获取top10的关键词; 其中,停用词库是结合了目前很多常见停用库的合并;
2021-10-07 10:44:11 3KB jieba 分词
1
“结巴”中文分词:做最好的 Python 中文分词组件