描述
这是实用程序脚本的集合,可以轻松地从东北大学的图书馆(Al Shawabka等人的数据集所在的位置)下载批量文件。
动机
NEU图书馆的数据存储库服务速度很慢,并且容易出错。 我有多个下载停顿,排队太多的文件导致压缩下载中的文件被遗漏,并且压缩过程需要很长时间。 我发现只编写脚本来抓取网站并手动下载每个文件会更容易。
作品及其目的
collection_finder.py
在NEU页面上查找所有集合
download_finder.py
在NEU页面上查找所有下载
get_downloads.bash
将collection_finder.py和download_finder.py捆绑在一起,以获得给定实验的所有下载链接。
steves_downloader.py
使用Selenium和无头镀Chrome来实际下载链接。 请注意,这可能太过苛刻了,但这是我想出的,并且可以正常
2021-11-17 14:33:40
23KB
Python
1