天天基金爬虫 爬取天天基金网上的所有基金,辅助对基金投资的选择 购买基金前,请务必在官方网站上确认爬取的数据无误! 2021-01-24更新 若存在问题,请切换回Release版本 功能特性 爬取基金的近1、3、6月,近1、3年及成立来的收益率,当前基金经理及其任职时间、任职来的收益率及总的任职时间 模仿tcp的拥塞避免的线程数量控制,慢开始,当出现错误时,线程最大值减半,成功则线程最大值+1 爬取全部数据需要505s,瓶颈为网站的反爬策略 结果展示 2021-01-24 共有10203个基金 食用方法 环境依赖 运行环境Python3.7 依赖见requirements.txt 下载所有.py脚本文件(除MonkeyTest外) 爬取基金数据 运行CrawlingFund.py并等待 筛选基金 还没做 基金分析 也没做 文件结构 -CrawlingFund 爬取主文件,描述整个的
2023-03-02 14:36:54 234KB cralwer fund-crawler Python
1
1. 基本介绍: config.py:配置信息文件 generate_task2db.py:从12306网站上下载train_list和station_name信息,对数据进行初步处理。生成两类任务:车次时刻表信息抓取任务(train_crawler.py)与车次经停靠站点信息(path_stations_crawler.py)。_id(主键):任务抓取url参数。车次时刻表信息抓取任务,对应起始站代码和终点站代码;车次经停靠站点信息抓取任务,对应车次序号train_no、起始站代码和终点站代码。status: 任务执行状态。以0作为任务抓取的初始状态值,表示UN_PROCESSED,1表示PROCESSING,2表示PROCESSED train_crawler.py: 车次时刻表信息抓取爬虫。 path_stations_crawler.py: 经停靠站台信息抓取爬虫。 get_pa
2022-11-29 15:09:32 2.65MB python3 requests 12306 cralwer
1