python-webpage-downloader
简单的python(3.x)程序可从网页下载html源代码以及外部资产(js,css,图像)。
该程序旨在下载网页的源html以及外部资产(js,css,图像)。 它检查外部资产,将其下载并替换它们在下载的源html中的相应路径。
要求:BeautifulSoup(解析HTML)
例子
假设您必须下载该网页@
首先将WebPageDownloader模块导入脚本并创建一个实例。
from webpagedownloader import WebPageDownloader
wpd = WebPageDownloader(url, data_dir)
现在,从WebPageDownloader调用save_all_assets方法
url = "http://imdb.com"
data_dir = "/path/to/the/
2022-01-18 10:27:11
1.11MB
系统开源
1