上传者: 38701156
|
上传时间: 2022-03-14 12:25:05
|
文件大小: 223KB
|
文件类型: -
本文将和大家分享一些从互联网上爬取语料的经验。
0x1 工具准备
工欲善其事必先利其器,爬取语料的根基便是基于python。
我们基于python3进行开发,主要使用以下几个模块:requests、lxml、json。
简单介绍一个各模块的功能
01|requests
requests是一个Python第三方库,处理URL资源特别方便。它的官方文档上写着大大口号:HTTP for Humans(为人类使用HTTP而生)。相比python自带的urllib使用体验,笔者认为requests的使用体验比urllib高了一个数量级。
我们简单的比较一下:
urllib:
import urlli