运行main_all.py即可爬取90%的天眼查公司
运行main_top100.py只爬取96个行业的前100家公司
运行main_search.py根据你的公司名搜索进行爬取指定公司
注意:
1,代理IP请自费或自力更生建免费IP池
2,本项目自带云数据库,可直接使用,用你的电脑直接加入爬虫计划,我愿称之为 “分布式”爬虫
3,如果想用自己的数据库,配置信息在 config.py里 修改为你的数据库和蘑菇代理appkey即可
4,此程序随时可停,随时可继续从上次停止的地方开始,不会重复爬取
5, 如果有其他问题,或者想要数据,加Q群: 231436610
步骤1: 查看data文件夹,看数据是否满足你的数据分析要求。
公司信息.xlsx 超过2万条的企业信息
行业TOP100.sql 各个行业Top100的企业信息 大概9000条记录。
步骤2: 如果数据不满足你的要求,你想操练一下,花点钱爽爽。
安装好mysql,建好表,sql文件夹下有建表脚本。
买好蘑菇代理或者其他代理池的代理
修改config.py 里面的配置,与数据库配置以及蘑菇代理API 的a
2023-03-08 21:20:36
29.87MB
python
1