OpenWebText
该项目是概述的GPT-2 WebText数据集的克隆。 该项目仍然是在制品。
非常感谢让我使用他的下载代码。 他的OpenWebText版本写得很好,所以请查看!
依存关系
Pipenv,Python 3,
要安装python依赖项,请执行以下操作:
pipenv install
依赖关系:
在Ubuntu上:
sudo apt-get install libxml2-dev libxslt-dev
在OS X上:
brew install libxml2 libxslt
用法
从reddit获取URL列表:
pipenv run python get_urls.py
从网址下载数据:
pipenv run python download.py
结果文件将以data/格式{domain}-{sha256 hash of url}.txt存放。
享
2021-08-24 10:43:18
14KB
Python
1