上传者: 42132354
|
上传时间: 2022-02-19 19:18:12
|
文件大小: 13.36MB
|
文件类型: -
蜘蛛演示
网络爬虫
概念:
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取骨骼信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁蚁,自动索引,模拟程序或蠕虫。
爬虫的具体步骤:
1,数据采集,经过一定的逻辑和策略,循环抓取网页上的数据,工作过程就像Ctrl + a-> Ctrl + c-> Ctrl + v;
2,解析,分析采集到的数据集,使用一定的规则或语法,提取相关的信息;
3,存储,将提取出的信息以我们想要的方式存储到数据库中,方便后续使用。
Web魔术师:
WebMagic是一个简单的灵活的Java爬虫框架,项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的,可以的爬虫实现,而扩展部分则包括一些便利的,实用性的功能。(
WebMagic的结构分为下载器,PageProc