爬取豆瓣影评、清洗、jieba分词、做词云图 本程序主要分为3个过程。 1、抓取网页数据 使用Python爬虫技术获取豆瓣电影中最新上映电影的网页,其网址如下: https://movie.douban.com/cinema/nowplaying/qingdao/ 正在上映的电影 每个电影的ID和名称 通过其HTML解析出每部电影的ID号和电影名,获取某ID号就可以得到该部电影的影评网址,形势如下: https://movie.douban.com/subject/26900949/comments https://movie.douban.com/subject/26871938/comments 其中,26900949、26871938就是电影《天使陷落》、《灭绝》的ID号,这样仅仅获取了20哥影评,可以指定开始号start来获取更多影评,例如: https://movie.douban.com/subject/26900949/comments?start=40&limit=20 这意味着获取从第40条开始得20个影评。 2、清理数据 通常将某部影评信息存入eachCommentList列表中。为便于数据清理和词频统计,把eachCommentList列表形成字符串comments,将comments字符串中的“也”“太”“ 的”等虚词(停用词)清理掉后进行词频统计。 3、用词云进行展示 最后使用词云包对影评信息进行词云展示。
2021-06-23 19:07:33 9.91MB jieba 清洗 词云图 豆瓣影评
本篇文章主要介绍了python jieba分词并统计词频后输出结果到Excel和txt文档方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
2021-06-22 10:15:22 61KB python jieba分词 python jieba词频统计
1
实验 词汇分析 1)使用任意分词方法编写算法实现汉语自动分词程序; 2)编写直接调用分词工具(jieba分词,中科院分词等)进行分词的程序; 3)用两种方法,给出至少50个句子的分词结果(以附件形式); 4)分别计算出两种分词结果的正确率,给出计算依据。
2021-06-07 14:07:10 33.55MB 自然语言处理 中文分词 jieba分词
1
jieba分词的自定义词典:使用jieba分词对语料进行分词之前,需要先载入,载入代码为jieba.load_userdict("userdict.txt")。
结巴分词用到的资源文件sougou.dict,使用方式见本人的博客。https://blog.csdn.net/JohnnyChu/article/details/100920349
2021-05-10 03:07:11 1.05MB jieba分词包 结巴分词包 sougou.dict
1
本人最近在用lucene做一些东西,需要用到jieba分词器。但csdn上的资源都是需要积分的,一个开源软件竟然还要积分。。。从github找的,分享给大家吧
2021-05-09 17:35:27 2.45MB java jieba
1
将需要分词进行词性标注的句子存放在corpus文本文件(自建)中,最好是每句话存为一行。注:corpus文件需放在代码所在文件夹里。运行代码,自动生成一个outcome文本文件,分词词性标注结果就在此文本里。
2021-04-24 18:41:13 715B jieba分词 词性标注 自动
1
前向最大匹配算法、后向最大匹配算法、jieba分词,使用python,完整的代码和运行结果
2021-04-15 13:03:27 108KB 分词 python jieba
该资源包括jieba中文分词所需要的词库,中文中国知网Hownet,清华大学李军词库,情感词典词库,词性分词词库等资源,众多词库资源方便与分词使用,在人工智能和nlp上使用方便
2021-04-14 13:53:52 5.23MB jieba 分词 nlp
1
该文件是jieba分词jar包,其中包括主要的jar包,源码,文档等。
2021-03-29 12:06:58 4.24MB java jar jieba
1