网络爬虫又称网络蜘蛛,是指按照某种规则在网络上爬取所需内容的脚本程序。众所周知,每个网页通常包含其他网页的入口,网络爬虫则通过一个网址依次进入其他网址获取所需内容。
爬虫可以作为通用搜索引擎网页收集器和垂直搜索引擎。爬虫是搜索引擎的第一步也是最容易的一步。C,C++适合通用搜索引擎做全网爬取,但其开发慢,写起来又臭又长。脚本语言:Perl, Python, Java, Ruby。简单,易学,良好的文本处理能方便网页内容的细致提取,但效率往往不高,适合对少量网站的聚焦爬取。
Python用来写爬虫优势有很多,总结起来主要有两个要点:
1)抓取网页本身的接口
2)网页抓取后的处理