Scrapy_crawl_qichacha 要求: python版本:python 3.6 确保已在计算机中安装了scrapy。 用法: 首先,您需要访问并登录以获取Cookie。 然后清除之前存在于cookies.txt中的cookie,然后将您自己的cookie粘贴到其中。 您可以在其中粘贴多个cookie,这是由于网站访问的限制而使抓取工具的性能更好。 打开命令窗口并输入主路径: cd Scrapy_crawl_qichacha-master 然后开始抓取: scrapy crawl qcc 然后按照窗口中显示的说明进行操作。 笔记: 如果抓取速度过快,则会显示验证码并使程序报告错误,因此该程序设置了相对较慢的速度,您可以在settings.py中进行更改。 当程序报告错误时,这意味着您的帐户中会出现一个验证码,您需要在浏览器中访问URL并输入确认码。
2022-03-08 11:46:00 17KB Python
1
爬取所需要的数据
2021-09-06 17:12:35 151KB 企查查数据
1
天眼查、企查查 公司信息爬虫 使用说明 设置数据源 MysqlConfig = { 'develop': { 'host': '192.168.1.103', 'port': 3306, 'db': 'enterprise', 'username': 'root', 'password': 'root@123' } } 执行db/data.sql生成数据结构 配置IP代理config/settings # 全局代理控制 GLOBAL_PROXY = True PROXY_POOL_URL = "http://localhost:5010" 设置爬取关键字qichacha&tianyancha keys = ['Google'] # 设置爬取列表 crawler.load_keys(keys) c
2021-08-27 09:54:55 17KB proxy python3 ua qichacha
1
qichacha-spider 爬取企查查网站上面登记的企业信息 脚本文件说明 qichachaspider.py 爬虫脚本 qichachaspider.2.0.py 新页面的爬虫脚本 qichacha_company.csv 数据保存的CSV文件,自动生成 脚本目前只爬取广东地区的企业信息,如果需要请更改脚本的URL地址 网站页面修改了,重新编写获取电话、邮箱、官网和地址的代码,新脚本为qichachaspider.2.0.py 如果获取的电话号码和邮箱地址不显示,请添加登录后的网站cookies然后在contentPage(url)中的requets.get()中添加cookies=cookies,然后再执行爬虫 如果内容页打不开或者自动跳转到首页导致获取不到内容,请使用代理再运行爬虫脚本 代码修改进行中 2018-06-1
2021-08-21 11:30:59 13KB Python
1