Scrapy_crawl_qichacha 要求: python版本:python 3.6 确保已在计算机中安装了scrapy。 用法: 首先,您需要访问并登录以获取Cookie。 然后清除之前存在于cookies.txt中的cookie,然后将您自己的cookie粘贴到其中。 您可以在其中粘贴多个cookie,这是由于网站访问的限制而使抓取工具的性能更好。 打开命令窗口并输入主路径: cd Scrapy_crawl_qichacha-master 然后开始抓取: scrapy crawl qcc 然后按照窗口中显示的说明进行操作。 笔记: 如果抓取速度过快,则会显示验证码并使程序报告错误,因此该程序设置了相对较慢的速度,您可以在settings.py中进行更改。 当程序报告错误时,这意味着您的帐户中会出现一个验证码,您需要在浏览器中访问URL并输入确认码。
2022-03-08 11:46:00 17KB Python
1
qichacha-spider 爬取企查查网站上面登记的企业信息 脚本文件说明 qichachaspider.py 爬虫脚本 qichachaspider.2.0.py 新页面的爬虫脚本 qichacha_company.csv 数据保存的CSV文件,自动生成 脚本目前只爬取广东地区的企业信息,如果需要请更改脚本的URL地址 网站页面修改了,重新编写获取电话、邮箱、官网和地址的代码,新脚本为qichachaspider.2.0.py 如果获取的电话号码和邮箱地址不显示,请添加登录后的网站cookies然后在contentPage(url)中的requets.get()中添加cookies=cookies,然后再执行爬虫 如果内容页打不开或者自动跳转到首页导致获取不到内容,请使用代理再运行爬虫脚本 代码修改进行中 2018-06-1
2021-08-21 11:30:59 13KB Python
1
通过关键词的检索,爬取企查查网站上失信人信息。测试环境:python2.7,windows7操作系统;
2021-08-11 16:20:53 4KB 爬虫,企查查
1
爬取企查查网站上公司的工商信息,路径大家根据自己情况自行修改,然后再在工程路径下创建个company.txt,里面输入想要爬取的公司名,就会生成该公司的工商信息网页。
2019-12-21 20:50:34 4KB 爬取企查查
1
爬取企查查网站上公司的工商信息,路径大家根据自己情况自行修改,然后再在工程路径下创建个company.txt,里面输入想要爬取的公司名,就会生成该公司的工商信息网页。
2019-08-07 17:23:21 4KB 企查查 爬虫
1