一.网络爬虫 二.Kafka与MySQL的组合使用 访问豆瓣电影Top250,将获取到的信息保存至本地文件中或者数据库中,访问微博热搜榜,并将获取到的数据通过邮件的形式,每20秒发送一次到个人邮箱中。 读取student表的数据内容,将其转为JSON格式,发送给Kafka; 再从Kafka中获取到JSON格式数据,打印出来。 编写生产者程序,将json文件数据发送给Kafka; 编写消费者程序,读取Kafka的json文件数据,并手动提交偏移量。 编写生产者程序,以通用唯一标识符UUID作为消息,发送给主题assign_topic; 编写消费者程序1,订阅主题的分区0,只消费分区0数据; 编写消费者程序2,订阅主题的分区1,只消费分区1数据;
2023-03-26 20:27:13 4.77MB 爬虫 文档 数据采集
1
时至2023年,互联网大爆炸催生出了一系列新生的网络产物,如微博、微信、网络新闻等,这些产物逐渐演化成了互联网时代的新兴媒体,以全新的方式承载了舆情与舆论。网络新闻是由于某一时刻发生的新闻,首先被上传到互联网上,然后经过广大网民的评论转发而广泛传播,其中包含了很多的重要而且有价值的信息,例如网民们的评价倾向,人们对待某一事物的看法等等。时至今日,互联网信息产业三足鼎立的局面显而易见,主要网络媒体新闻来源:新浪微博、微信公众号、网络媒体。 其中,最开始显现这一势头的是新浪微博,例如“郭美美事件”,经由个人发博文,然后通过@一些网络推手或者微博大V,使得相关信息传播如星星之火,借助于微博的实时性,很快会形成燎原之势。正是因为微博拥有这些特征,很多正面或者负面新闻不能通过传统媒体报道却能通过微博途径大肆传播。随着新浪微博的发展与推广,越来越多的人喜欢将自己的生活“曝光”在微博上,例如心情状态、将来的计划、晒一晒生活、晒一晒人生等等,无形中,微博对舆论分析的潜在价值不断上升。微博拉近了人们与新闻、与热点的距离,但是它也带来了不可忽视的负面影响。针对微博谣言恶性化、舆论暴力不断、侵权案件层见叠出
2023-03-24 09:51:02 15.04MB 毕业设计 爬虫
1
演示了如何利用Python库获取网上关于汽车的评估的方法。乃至了urllib库、BeautifulSoup库等。
2023-03-23 21:03:43 901B Python urllib BeautifulSou
1
crawler-chrome-extensions:爬虫工程师常用的Chrome插件| 搜寻器开发人员使用的Chrome扩展程序
2023-03-23 14:48:05 7.01MB python chrome-extension crawler scraper
1
本项目基于Python编写了一个京东商城手机商品的爬虫,并对数据进行了可视化分析的程序。通过爬虫获取了40余页的手机商品信息,并使用Python的数据分析库进行了数据清洗和可视化处理。本文使用了多种图表形式,包括柱状图、饼图和散点图等,来展示京东商城手机商品的各种属性,如价格、品牌、销量等。通过可视化分析,本文得出了不同品牌手机的价格分布情况、不同价格区间的销售情况以及不同品牌手机的评价情况等结论。 该项目通过request库结合xpath解析,来获取京东商城手机商品前40页数据,每页60个手机商品,共2000多条手机商品数据,包括商品的ID,名称,价格,店名,是否自营,地址链接,评论数(京东无直接销量数据,故采用评论数充当销量数据)以及好评率等数据,并使用pandas库对数据进行清洗与分析,matloplit进行可视化。
2023-03-22 09:10:19 192KB python 爬虫 可视化
1
该爬虫应用了创建文件夹的功能: #file setting folder_path = D:/spider_things/2016.4.6/ + file_name +/ if not os.path.exists(folder_path): os.makedirs(folder_path) 上面代码块的意思是: os.path.exists(folder_path)用来判断folder_path这个路径是否存在,如果不存在,就执行“os.makedirs(folder_path)”来创建这个路径 补充:下面看下Python 爬虫 —— 文件及文件夹操作 0. 文件名、路径信息、
2023-03-21 16:53:49 38KB python python爬虫 root
1
爬取汽车之间某关键词相关评论,输出至excel文件中。输出内容为评论发布时间以及评论的内容,可以用来做某关键词相关信息的统计
2023-03-18 21:00:28 3.19MB 汽车之家 python 爬虫
1
python课的小项目作业,参照我的主页博客基本可以直接拿来用,内含源码及报告 我取名为B站用户发言爬取与情感分析——为视频创作者提供的观众评议分析系统
2023-03-18 10:23:28 3.86MB 爬虫 python 情感分析 舆情分析
1
爬虫python入门 个获取知乎用户主页信息的多线程Python爬虫程序。 简介: * 使用[Requests](http://www.python-requests.org/en/master/)模拟HTTP请求/响应,[Beautiful Soup 4](https://www.crummy.com/software/BeautifulSoup/)提取页面信息。 * 使用Python内置的Thread多线程和IP代理提升爬取速度,并绕过知乎的反爬虫机制。 * 使用Python内置的query作为消息队列。 * 用csv文件存储数据。 ## 环境依赖 * beautifulsoup4 * requests ## 使用方法 在项目路径下输入以安装需要的模块: ```shell $ pip install -r requirments.txt ``` 打开proxy.py文件,在""处填写代理隧道验证信息: ```python # 代理隧道验证信息 proxyUser = "" proxyPass = "" ``` (笔者使用一个IP代理隧道,若需要使用普通IP代理,
2023-03-17 21:10:34 19.35MB Python 爬虫 多线程 Python基础
1
python爬虫获取疫情各地区确诊人数,实现数据可视化,本文包含项目背景和需求、研究思路、爬虫过程(含代码以及注释)
2023-03-16 21:23:10 740KB python 爬虫
1