上传者: 38684633
|
上传时间: 2021-12-05 12:12:10
|
文件大小: 99KB
|
文件类型: -
简介
提到爬虫,大部分人都会想到使用Scrapy工具,但是仅仅停留在会使用的阶段。为了增加对爬虫机制的理解,我们可以手动实现多线程的爬虫过程,同时,引入IP代理池进行基本的反爬操作。
本次使用天天基金网进行爬虫,该网站具有反爬机制,同时数量足够大,多线程效果较为明显。
技术路线
IP代理池
多线程
爬虫与反爬
编写思路
首先,开始分析天天基金网的一些数据。经过抓包分析,可知:
./fundcode_search.js包含所有基金的数据,同时,该地址具有反爬机制,多次访问将会失败的情况。
同时,经过分析可知某只基金的相关信息地址为:fundgz.1234567.com.cn/j