智联招聘爬虫,可以根据地区与搜索的内容进行爬取数据,整个文件夹中包括代码与说明书,说明书足够详细,该代码是我做数据分析时实打实写出来的,主打一个好使。这个爬虫主要由selenium与Python来实现,并且该selenium可以在正常模式与handless模式(无头模式)之间进行更改。相关浏览器(谷歌)所需的插件也在文件中所包含。而核心代码由两部分构成:标签页、详情页。我将其分成了两个部分,方便理解,如果想要爬取完整的智联招聘的数据,需要先试用main.py中的标签页代码来爬取数据,然后再使用详情页的代码文件 来爬取详情页的信息。可以完整爬取下来的数据列包括:公司名称、公司地址、公司规模、招聘工资、招聘标签、 详情页链接、详情页内容等等。简单高效。 截止到2024年1月30号,代码仍然可以正常使用,详细的操作步骤已经在文档中的说明书中说明清楚。文档中还包括一份该爬虫的逻辑分析图,方便使用者理解该爬虫的结构,并且能够再此基础上对代码进行更新,能够进行爬取其他的网站。 该代码仅用于学习目的,方便对数据的爬取,不能用于其他的用途,非常感谢。
2024-04-01 18:38:44 7.62MB selenium 爬虫
1
1、python爬取企查查公司信息 2、添加应对反爬的设置 3、开箱即用,有示例数据文件 4、windows版本 5、需要登录或者人工验证 6、采用selenium模块+chromedriver驱动
2022-11-23 16:26:53 13KB selenium 爬虫 企查查 chromedriver
1
采用selenium模块从微博爬取的旅游信息数据,有代码和数据。
2022-08-08 09:04:16 11KB selenium 爬虫 微博 旅游信息
1
功能介绍 京东与1688项目两个项目具有极高的相似度,我首先写的京东爬虫,再写的1688爬虫,1688爬虫基于京东爬虫的构建思路,因此1688爬虫会比京东爬虫更深入,两者也会有一些重复的部分。 1、selenium反侦察。通过自动化工具,可以模拟正常人类的操作,但还是会有一些检测方式,可以检查到selenium之类的工具。这两个项目里配置了一个Chrome浏览器选项,开启了浏览器开发者模式,防止被爬网站通过js代码检查到自动化工具。可能还会有其他的反侦察方法,待我们继续深挖。 2、输入关键字查询,爬取显示页面所有商品。京东项目里面会爬取每个商品的商品名、店铺、价格、好评率。1688项目爬取分两部分,一个商品,一个店铺。商品里包括的信息:商品名、店铺地址、价格(以json字符串存入的数据库)、搜索关键字。店铺里包括的信息:店铺地址、店铺名、货描、响应、发货速度。 3、1688项目有店铺去重的功能。在搜索页面中,有许多店铺重复了,这里用redis的set保存了店铺的地址,如果店铺地址没有在set中,那就插入mysql数据库,反之则不插入。 4、1688项目异常处理。有些地方数据解析不到,解析不到就跳过当前的解析,进行下一次解析,不会出现程序运行停止的情况。 另外内含详细截图+详细部署视频,还对过程中可能出现的问题进行了汇总,对于正在学习这方面的你是一个很好的选择,希望对你有所帮助。
1
selenium爬虫学习——CNKI内容数据获取
2022-01-28 19:03:14 6KB 爬虫 selenium python 测试工具
使用python selenium爬取当当网商品搜索相关结果,并下载图片,写入xls、保存到mongo数据库
2021-12-17 16:55:05 43.39MB python selenium 爬虫
1
1,先获取题目的分类及每个分类的练习题页面的url,并存入csv文件中 2,轮询url通过点击获得每个题标题,选项及答案
2021-11-13 16:01:50 3.48MB 考试宝典 ksbao selenium 爬虫
1
python的《Selenium爬虫》中文版
2021-09-24 14:01:06 5.24MB python 中文版 Selenium爬虫
1
Python selenium 获取 QQ 群信息,包含QQ号码,群号,群名称,群人数,群规格,并保存为本地 Excel 文件
2021-07-24 21:01:01 5KB Python selenium 爬虫 QQ
1
导入excel.txt
2021-07-13 12:17:54 1KB python selenium 爬虫
1