书虫
一个偏爱文档类网站的爬虫扩展。目前专门设计为用于抓取,所以不一定能在其它网站上正常工作。
使用方法
在这之前,先确保你的 Chrome 浏览器能正常打开 (下面称作“远程服务器”)。
下载代码库
启动 nodejs 程序:node app(稍后会说明为什么)
在 Chrome 的扩展程序页面(chrome://extensions/)勾选开发者模式,然后点击加载正在开发的扩展程序并指向代码库下的 /crx 文件夹
点击背景页,在Console面板内输入c()
完成之后(我花了大约7分钟),代码库下会多出一个chrome文件夹,此时你就可以在浏览器中输入http://localhost:12345/extensions/来阅读文档了。
将它用于其它网站
见
工作原理
传统的爬虫是基于对 html 字符串进行正则表达式解析来获取页面上的资源的,而书虫则是利用了浏览器里面的XMLHttp
1