前言
上一节用beautifulsoup库爬取了csdn的个人信息,这一节学习使用re库爬取淘宝商品信息。
re库
正则表达式常用符号:
常用函数:
分析网页
在淘宝搜索物品就是将url结尾加上q = ?的关键字,这里以书包为例查看网页源码:
可以看到,标签名字在raw_title中,价格在view_price中,那么就用正则表达式匹配这个字符串即可。
代码
# 淘宝商品比价
import requests
import re
from prettytable import PrettyTable
import prettytable as pt
def getHtmlText(ur
1