1. 基本介绍: config.py:配置信息文件 generate_task2db.py:从12306网站上下载train_list和station_name信息,对数据进行初步处理。生成两类任务:车次时刻表信息抓取任务(train_crawler.py)与车次经停靠站点信息(path_stations_crawler.py)。_id(主键):任务抓取url参数。车次时刻表信息抓取任务,对应起始站代码和终点站代码;车次经停靠站点信息抓取任务,对应车次序号train_no、起始站代码和终点站代码。status: 任务执行状态。以0作为任务抓取的初始状态值,表示UN_PROCESSED,1表示PROCESSING,2表示PROCESSED train_crawler.py: 车次时刻表信息抓取爬虫。 path_stations_crawler.py: 经停靠站台信息抓取爬虫。 get_pa
2022-11-29 15:09:32 2.65MB python3 requests 12306 cralwer
1
爬虫的反爬机制与相对应的反反爬手段
2021-10-14 14:04:28 123B 爬虫 反爬虫 反反爬虫
1
淘宝、京东反反爬虫爬取手机信息 应对反爬的方式:使用 selenium 模拟浏览器方式爬取,先通过以某个端口打 开 chrome 浏览器,手动登录淘宝,防止留下 selenium 指纹被淘宝封号: 再通过 9399 端口将浏览器控制,这样可以尽量不被淘宝检测到。先将手机价格, 付款人数,店名,店家的链接爬取出来,再通过访问链接得到手机的品牌和具体 型号。
2021-04-26 20:36:37 793KB python爬虫
1