爬取豆瓣影评、清洗、jieba分词、做词云图 本程序主要分为3个过程。 1、抓取网页数据 使用Python爬虫技术获取豆瓣电影中最新上映电影的网页,其网址如下: https://movie.douban.com/cinema/nowplaying/qingdao/ 正在上映的电影 每个电影的ID和名称 通过其HTML解析出每部电影的ID号和电影名,获取某ID号就可以得到该部电影的影评网址,形势如下: https://movie.douban.com/subject/26900949/comments https://movie.douban.com/subject/26871938/comments 其中,26900949、26871938就是电影《天使陷落》、《灭绝》的ID号,这样仅仅获取了20哥影评,可以指定开始号start来获取更多影评,例如: https://movie.douban.com/subject/26900949/comments?start=40&limit=20 这意味着获取从第40条开始得20个影评。 2、清理数据 通常将某部影评信息存入eachCommentList列表中。为便于数据清理和词频统计,把eachCommentList列表形成字符串comments,将comments字符串中的“也”“太”“ 的”等虚词(停用词)清理掉后进行词频统计。 3、用词云进行展示 最后使用词云包对影评信息进行词云展示。
2021-06-23 19:07:33 9.91MB jieba 清洗 词云图 豆瓣影评
通过python及其jieba三方库,筛选关键词,整合《红楼梦》人物出场排名,也可整合《红楼梦》词汇使用情况,从而分析《红楼梦》的角色戏份及用语习惯。
2021-06-22 19:14:29 2KB python jieba
1
本篇文章主要介绍了python jieba分词并统计词频后输出结果到Excel和txt文档方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
2021-06-22 10:15:22 61KB python jieba分词 python jieba词频统计
1
python_情感分析基于jieba库,测试python3可直接运行,只需要jieba库,io库和numpy库,这三个基础库,就可以完成python的情感分析
2021-06-21 20:07:43 258KB python_情感分析基于jie
1
实验 词汇分析 1)使用任意分词方法编写算法实现汉语自动分词程序; 2)编写直接调用分词工具(jieba分词,中科院分词等)进行分词的程序; 3)用两种方法,给出至少50个句子的分词结果(以附件形式); 4)分别计算出两种分词结果的正确率,给出计算依据。
2021-06-07 14:07:10 33.55MB 自然语言处理 中文分词 jieba分词
1
jieba分词的自定义词典:使用jieba分词对语料进行分词之前,需要先载入,载入代码为jieba.load_userdict("userdict.txt")。
对字符串进行分词
2021-06-03 13:03:17 7.38MB 分词
1
python3.7 windows 64位 jieba 安装包,命令 pip install jieba-0.42.1-cp37-none-any.whl
2021-06-03 11:22:17 18.42MB jieba python
1
jieba停用词
2021-06-02 18:03:18 11KB jieba 停用词
1
jieba+百度分词词库,数据大概60w左右,可以做情感分析用。
2021-06-01 17:58:31 2.25MB jieba
1