上传者: 38670297
|
上传时间: 2021-11-13 16:39:00
|
文件大小: 40KB
|
文件类型: -
以网页表格为例:https://www.kuaidaili.com/free/
该网站数据存在table标签,直接用requests,需要结合bs4解析正则/xpath/lxml等,没有几行代码是搞不定的。
今天介绍的黑科技是pandas自带爬虫功能,pd.read_html(),只需传人url,一行代码搞定。
原网页结构如下:
python代码如下:
import pandas as pd\nurl='http://www.kuaidaili.com/free/'
df=pd.read_html(url)[0]
# [0]:表示第一个table,多个table需要指定,如果不指定默认第一个