以网页表格为例:https://www.kuaidaili.com/free/
该网站数据存在table标签,直接用requests,需要结合bs4解析正则/xpath/lxml等,没有几行代码是搞不定的。
今天介绍的黑科技是pandas自带爬虫功能,pd.read_html(),只需传人url,一行代码搞定。
原网页结构如下:
python代码如下:
import pandas as pd\nurl='http://www.kuaidaili.com/free/'
df=pd.read_html(url)[0]
# [0]:表示第一个table,多个table需要指定,如果不指定默认第一个
1