WikiExtractor
是一个Python脚本,可从中提取和清除文本。
该工具是用Python编写的,不需要Python 3,但没有其他库。 警告:由于Windows上的Python实现对StringIO支持不佳, StringIO在Windows上已报告问题。
有关更多信息,请参见 。
维基百科卷云提取器
cirrus-extractor.py是从Wikipedia Cirrus转储执行提取的脚本版本。 Cirrus转储包含带有已扩展模板的文本。
Cirrus转储位于: 。
细节
WikiExtractor通过预处理整个转储并提取模板定义来执行模板扩展。
为了加快处理速度:
多重处理用于并行处理文章
缓存中保留有已解析的模板(仅适用于重复提取)。
安装
该脚本可以直接调用:
python -m wikiextractor.WikiExtractor <Wikipedi
2022-05-14 20:09:44
47KB
Python
1