无头爬虫 :ghost:
使用无头浏览器(Chrome)实现的搜寻器。
产品特点
使用用户提供的extractContent函数对网站进行extractContent并按照filterLink和onResult指示遵循观察到的URL。
可配置的并发。
尊重 (可配置)(请参阅 )。
用法
import puppeteer from 'puppeteer' ;
import {
createHeadlessCrawler
} from 'headless-crawler' ;
const main = async ( ) => {
const browser = puppeteer . launch ( ) ;
// See Configuration documentation.
const headlessCrawler = createHeadlessCrawler ( {
onResult : ( resource ) => {
console . log ( resource . content . title ) ;
} ,
1