1. 基本介绍:
config.py:配置信息文件
generate_task2db.py:从12306网站上下载train_list和station_name信息,对数据进行初步处理。生成两类任务:车次时刻表信息抓取任务(train_crawler.py)与车次经停靠站点信息(path_stations_crawler.py)。_id(主键):任务抓取url参数。车次时刻表信息抓取任务,对应起始站代码和终点站代码;车次经停靠站点信息抓取任务,对应车次序号train_no、起始站代码和终点站代码。status: 任务执行状态。以0作为任务抓取的初始状态值,表示UN_PROCESSED,1表示PROCESSING,2表示PROCESSED
train_crawler.py: 车次时刻表信息抓取爬虫。
path_stations_crawler.py: 经停靠站台信息抓取爬虫。
get_pa
1