文章目录1、前言2、网站分析3、代码编写4、完整代码
1、前言
目前我的爬虫系列更新到了正则表达式,我们就可以用请求库+正则表达式爬取一些简单的页面了。因为我个人非常喜欢打篮球,所以就选取了虎扑网作为爬取对象。当然,这只是一个入门级案例,后面会再写一篇使用解析库的方式爬取虎扑网数据。
2、网站分析
想要爬取一个网站的数据,就一定要分析该网站的网页源代码。此时,通过浏览器登录虎扑网,点开NBA得分榜,完整网址为:虎扑网NBA得分榜。
目前得分榜第一位是马赛克队后卫,整个得分榜共有5页,237名球员。
通过点击第二页,第三页可以分析得知网址的构成为:https://nba.hup
1