天天基金爬虫 爬取天天基金网上的所有基金,辅助对基金投资的选择 购买基金前,请务必在官方网站上确认爬取的数据无误! 2021-01-24更新 若存在问题,请切换回Release版本 功能特性 爬取基金的近1、3、6月,近1、3年及成立来的收益率,当前基金经理及其任职时间、任职来的收益率及总的任职时间 模仿tcp的拥塞避免的线程数量控制,慢开始,当出现错误时,线程最大值减半,成功则线程最大值+1 爬取全部数据需要505s,瓶颈为网站的反爬策略 结果展示 2021-01-24 共有10203个基金 食用方法 环境依赖 运行环境Python3.7 依赖见requirements.txt 下载所有.py脚本文件(除MonkeyTest外) 爬取基金数据 运行CrawlingFund.py并等待 筛选基金 还没做 基金分析 也没做 文件结构 -CrawlingFund 爬取主文件,描述整个的
2023-03-02 14:36:54 234KB cralwer fund-crawler Python
1
简介 提到爬虫,大部分人都会想到使用Scrapy工具,但是仅仅停留在会使用的阶段。为了增加对爬虫机制的理解,我们可以手动实现多线程的爬虫过程,同时,引入IP代理池进行基本的反爬操作。 本次使用天天基金网进行爬虫,该网站具有反爬机制,同时数量足够大,多线程效果较为明显。 技术路线 IP代理池 多线程 爬虫与反爬 编写思路 首先,开始分析天天基金网的一些数据。经过抓包分析,可知: ./fundcode_search.js包含所有基金的数据,同时,该地址具有反爬机制,多次访问将会失败的情况。 同时,经过分析可知某只基金的相关信息地址为:fundgz.1234567.com.cn/j
2021-12-05 12:12:10 99KB python python多线程 代理
1
使用selenium加载网页,回去网页源代码,爬取天天基金网站基金排行,并存储在MongoDB和txt几十本中。
2021-07-12 13:31:46 2KB 爬取天天基金 爬虫 selenium
1
爬取天天基金数据 获取全量基金信息(基金代码、基金名、类型...) 获取基金指定内单位净值、累计净值、日增长率等 爬取所有基金以及相应的单位净值、累计净值、日增长等
2021-06-28 11:04:06 20KB 天天基金 爬虫