上传者: 38724333
|
上传时间: 2021-09-27 11:48:43
|
文件大小: 54KB
|
文件类型: PDF
如何获取指定的标签的内容是解析网页爬取数据的必要手段,比如想获取 …这样的div标签,通常有三种办法,
1)用字符串查找方法,然后切分字符串(或切片操作),如str.index(patternStr)或str.find(patternStr),这种方法快,但步骤多,因为要去头去尾。
2)用正则表达式,比如'([\s\S]+?)’,通过正则表达式的括号,可以获取匹配的内容,即之间的内容:
import re
def getTags(html):
reg = r