前面所讲的都是对静态网页进行抓取,本博客介绍动态网站的抓取。 动态网站的抓取 相比静态网页来说困难一些,主要涉及的技术是Ajax和动态Html。简单的网页访问是无法获取完整的数据,需要对数据加载流程进行分析。针对不同的动态网页爬取方法,将分别用具体实例进行介绍。本博客主要是直接利用Ajax来获取数据。
页面分析
本博客以MTime电影网为例,主要爬取电影的评分票房等信息。首先使用火狐浏览器的控制台来查看页面信息。
对于页面中的票房信息是无法在HTML中获取到,其是通过js进行动态加载获得的,那么就查找相应的js响应。就是从一堆js请求中查看一些含有Ajax字段的请求。http://servi
2022-04-14 17:00:55
486KB
动态
动态网页
1