上传者: 38502639
|
上传时间: 2021-12-05 15:38:11
|
文件大小: 880KB
|
文件类型: -
一、项目介绍
今天我们的爬虫内容是bilibili视频弹幕爬取,并保存到本地为JSON格式,正常爬虫只需要发送请求,解析相应内容,而爬取bilibili的内容,视频弹幕并没在响应的html中,而是保存在一个响应的url中,以XML格式保存,所以这算是一个新的内容,我会在下面进行详解。
二、所需技术
import requests (发送请求获取响应数据)
from lxml import etree (xpath提取内容)
import re (正则表达式提取内容)
import json (JSON格式与文本格式的转换)
三、网页分析
1、分析响应内容
首先以