上传者: 42139429
|
上传时间: 2021-12-25 08:47:10
|
文件大小: 12KB
|
文件类型: -
原生node和jsdom实现爬虫
项目介绍
使用node原生模块+jsdom/cheerio模块,实现http和https通用的爬虫工具
目录不定时更新爬成功的网站
目录libs是封装好的请求方法
软件架构
原生node模块:
1、http模块
2、https模块
3、fs模块
4、path模块
5、assert模块
6、url模块
第三方模块
jsdom
cheerio
第三方模块
5、jsdom模块-解析dom结构
安装教程
npm i安装模块
使用说明
node xxx.js文件
最简单的爬虫
1、引入http模块
const http=require('http');
2、通过http模块的request方法,请求网络地址
let req=http.request('http://www.baidu.com', res=>{});
其中res=>{}是请求成功后的回调函数,req用