DWTC-Extractor:用于常见爬网的 Web 表提取器
这是用于创建的完整提取器。
注意:这部分基于最初作为一部分发布的代码。 原始存储库可在找到。
修改包括:
删除不必要的代码片段并更新依赖项
将集成到原始提取代码中,以便能够处理使用 WARC 文件格式的较新版本的 Common Crawl。 这也意味着该提取器是基于 WARC 的新版 Common Crawl 上的任何提取任务的良好基础。
添加网络表格识别和提取代码(在“webreduce”包中)
另请注意,Web Data Commons 项目现在基于旧版本的 Common Crawl 发布。 此代码是在 WDC 语料库发布之前分叉的。
内容
运行提取器(原始文档)
以下是原作者对此代码的原始评论,必要时进行了编辑。 主脚本的文档大多仍然适用,或者经过编辑以与新版本的 CC 配合使用。
此实现使用 AWS 管道
2021-06-22 19:20:51
288KB
Java
1