搜索【jieba whoosh】的结果

爬取豆瓣影评、清洗、jieba分词、做词云图本程序主要分为3个过程。 1、抓取网页数据使用Python爬虫技术获取豆瓣电影中最新上映电影的网页，其网址如下： https://movie.douban.com/cinema/nowplaying/qingdao/ 正在上映的电影每个电影的ID和名称通过其HTML解析出每部电影的ID号和电影名，获取某ID号就可以得到该部电影的影评网址，形势如下： https://movie.douban.com/subject/26900949/comments https://movie.douban.com/subject/26871938/comments 其中，26900949、26871938就是电影《天使陷落》、《灭绝》的ID号，这样仅仅获取了20哥影评，可以指定开始号start来获取更多影评，例如： https://movie.douban.com/subject/26900949/comments?start=40&limit=20 这意味着获取从第40条开始得20个影评。 2、清理数据通常将某部影评信息存入eachCommentList列表中。为便于数据清理和词频统计，把eachCommentList列表形成字符串comments，将comments字符串中的“也”“太”“ 的”等虚词（停用词）清理掉后进行词频统计。 3、用词云进行展示最后使用词云包对影评信息进行词云展示。

2021-06-23 19:07:33 9.91MB jieba 清洗 词云图 豆瓣影评

红楼梦词频分析.py

通过python及其jieba三方库，筛选关键词，整合《红楼梦》人物出场排名，也可整合《红楼梦》词汇使用情况，从而分析《红楼梦》的角色戏份及用语习惯。

2021-06-22 19:14:29 2KB python jieba

1

python jieba分词并统计词频后输出结果到Excel和txt文档方法

本篇文章主要介绍了python jieba分词并统计词频后输出结果到Excel和txt文档方法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

2021-06-22 10:15:22 61KB python jieba分词 python jieba词频统计

1

python_情感分析基于jieba库.rar

python_情感分析基于jieba库，测试python3可直接运行，只需要jieba库，io库和numpy库，这三个基础库，就可以完成python的情感分析

2021-06-21 20:07:43 258KB python_情感分析基于jie

1

NLP词汇分析.rar

实验词汇分析 1）使用任意分词方法编写算法实现汉语自动分词程序； 2）编写直接调用分词工具(jieba分词，中科院分词等)进行分词的程序; 3）用两种方法，给出至少50个句子的分词结果（以附件形式）； 4）分别计算出两种分词结果的正确率，给出计算依据。

2021-06-07 14:07:10 33.55MB 自然语言处理 中文分词 jieba分词

1

jieba分词的自定义词典文档完整版

jieba分词的自定义词典：使用jieba分词对语料进行分词之前，需要先载入，载入代码为jieba.load_userdict("userdict.txt")。

2021-06-03 17:12:06 7.43MB 自定义词典 jieba分词自定义词典 jieba自定义词典

jieba结巴分词.zip

对字符串进行分词

2021-06-03 13:03:17 7.38MB 分词

1

jieba-0.42.1-cp37-none-any.whl

python3.7 windows 64位 jieba 安装包，命令 pip install jieba-0.42.1-cp37-none-any.whl

2021-06-03 11:22:17 18.42MB jieba python

1

China-StopWords.txt

jieba停用词

2021-06-02 18:03:18 11KB jieba 停用词

1

jieba+百度分词词库

jieba+百度分词词库，数据大概60w左右,可以做情感分析用。

2021-06-01 17:58:31 2.25MB jieba

1

个人信息

热门下载

最新下载

其他资源