wikiextractor:从Wikipedia转储中提取纯文本的工具

上传者: 42101384 | 上传时间: 2022-05-14 20:09:44 | 文件大小: 47KB | 文件类型: ZIP
WikiExtractor 是一个Python脚本,可从中提取和清除文本。 该工具是用Python编写的,不需要Python 3,但没有其他库。 警告:由于Windows上的Python实现对StringIO支持不佳, StringIO在Windows上已报告问题。 有关更多信息,请参见 。 维基百科卷云提取器 cirrus-extractor.py是从Wikipedia Cirrus转储执行提取的脚本版本。 Cirrus转储包含带有已扩展模板的文本。 Cirrus转储位于: 。 细节 WikiExtractor通过预处理整个转储并提取模板定义来执行模板扩展。 为了加快处理速度: 多重处理用于并行处理文章 缓存中保留有已解析的模板(仅适用于重复提取)。 安装 该脚本可以直接调用: python -m wikiextractor.WikiExtractor <Wikipedi

文件下载

资源详情

[{"title":"( 12 个子文件 47KB ) wikiextractor:从Wikipedia转储中提取纯文本的工具","children":[{"title":"wikiextractor-master","children":[{"title":".github","children":[{"title":"workflows","children":[{"title":"python-publish.yml <span style='color:#111;'> 864B </span>","children":null,"spread":false}],"spread":true}],"spread":true},{"title":"LICENSE <span style='color:#111;'> 33.71KB </span>","children":null,"spread":false},{"title":"extract.sh <span style='color:#111;'> 799B </span>","children":null,"spread":false},{"title":"setup.py <span style='color:#111;'> 1.29KB </span>","children":null,"spread":false},{"title":"README.md <span style='color:#111;'> 6.36KB </span>","children":null,"spread":false},{"title":".gitignore <span style='color:#111;'> 430B </span>","children":null,"spread":false},{"title":"wikiextractor","children":[{"title":"extractPage.py <span style='color:#111;'> 3.73KB </span>","children":null,"spread":false},{"title":"cirrus-extract.py <span style='color:#111;'> 8.37KB </span>","children":null,"spread":false},{"title":"__init__.py <span style='color:#111;'> 0B </span>","children":null,"spread":false},{"title":"WikiExtractor.py <span style='color:#111;'> 21.98KB </span>","children":null,"spread":false},{"title":"clean.py <span style='color:#111;'> 1.78KB </span>","children":null,"spread":false},{"title":"extract.py <span style='color:#111;'> 57.99KB </span>","children":null,"spread":false}],"spread":true}],"spread":true}],"spread":true}]

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明