Python应用实战代码-Python爬取豆瓣影评-分析挖掘用户与电影之间的隐藏信息
2021-07-21 12:04:18 791KB 爬虫 Python 用户画像
本宝宝采集的豆瓣20万条影评原始数据集,希望大家积极下载,尊重宝宝的劳动成果,后期有时间我还为大家提供数据集哈。 机器学习,nlp,深度学习的宝宝赶快看过来,看过来哈。 数据集格式: title##star##comment 电影名称##评论星级(1-5星)##评论内容
2021-07-15 21:45:58 19.93MB nlp 情感分析 豆瓣影评 影评数据
1
爬取豆瓣影评、清洗、jieba分词、做词云图 本程序主要分为3个过程。 1、抓取网页数据 使用Python爬虫技术获取豆瓣电影中最新上映电影的网页,其网址如下: https://movie.douban.com/cinema/nowplaying/qingdao/ 正在上映的电影 每个电影的ID和名称 通过其HTML解析出每部电影的ID号和电影名,获取某ID号就可以得到该部电影的影评网址,形势如下: https://movie.douban.com/subject/26900949/comments https://movie.douban.com/subject/26871938/comments 其中,26900949、26871938就是电影《天使陷落》、《灭绝》的ID号,这样仅仅获取了20哥影评,可以指定开始号start来获取更多影评,例如: https://movie.douban.com/subject/26900949/comments?start=40&limit=20 这意味着获取从第40条开始得20个影评。 2、清理数据 通常将某部影评信息存入eachCommentList列表中。为便于数据清理和词频统计,把eachCommentList列表形成字符串comments,将comments字符串中的“也”“太”“ 的”等虚词(停用词)清理掉后进行词频统计。 3、用词云进行展示 最后使用词云包对影评信息进行词云展示。
2021-06-23 19:07:33 9.91MB jieba 清洗 词云图 豆瓣影评
豆瓣影评数据,21000多条,包括movie_name, user_name, score, comment, date等字段,只需简单处理就可使用。
2021-03-08 13:06:37 5.59MB nlp 情感分析 豆瓣影评
1
豆瓣5万条影评原始数据集,机器学习,nlp,深度学习的宝宝赶快看过来,看过来哈。 数据集格式: title,star,comment,label是对应电影名称,评论星级(1-5星),评论内容,差评好评(星级大于3为好评)
2019-12-21 22:02:04 9.76MB NLP
1
Python项目案例开发从入门到实战源代码第20章 词云实战——爬取豆瓣影评生成词云
2019-12-21 21:26:25 607KB python
1
使用python语言实现的豆瓣电影数据搜索下载程序,包含数据文件和源代码
2019-12-21 21:12:17 42.47MB python 豆瓣影评
1
爬取豆瓣电视剧天盛长歌影评,并去掉其中的停止词,生成词云,
2019-12-21 19:30:37 6KB python爬虫
1