通过HBase、Hive、MySQL和Python的联合使用,对弹幕数据进行了基础的分析,文章适合大数据的初学者用于提升和进一步系统地认识。
2022-12-10 22:24:22 5.63MB 数据分析 弹幕爬取 数据可视化 HBase
1
blibli弹幕爬取及词云制作,blibli弹幕爬取及词云制作详细代码python带你走向人生巅峰,完整版
2021-12-15 16:55:20 20KB 爬虫 python
1
一、项目介绍         今天我们的爬虫内容是bilibili视频弹幕爬取,并保存到本地为JSON格式,正常爬虫只需要发送请求,解析相应内容,而爬取bilibili的内容,视频弹幕并没在响应的html中,而是保存在一个响应的url中,以XML格式保存,所以这算是一个新的内容,我会在下面进行详解。 二、所需技术 import requests (发送请求获取响应数据) from lxml import etree (xpath提取内容) import re (正则表达式提取内容) import json (JSON格式与文本格式的转换) 三、网页分析 1、分析响应内容         首先以
2021-12-05 15:38:11 880KB bilibili html代码 li
1
运行程序,输入Bvid和爬取日期;程序运行完成后会在当前文件夹下生成一个csv格式文件。
2021-11-01 18:11:37 122.13MB python 爬虫 B站 弹幕