Excalibur:一个Web界面,用于从PDF中提取表格数据
Excalibur是一个Web界面,可从以Python 3编写的PDF中提取表格数据! 它由驱动。
注意: Excalibur仅适用于基于文本的PDF,不适用于扫描的文档。 (如塔布拉,“如果你可以单击并拖动到一个PDF浏览器在你的餐桌选择文本,那么你的PDF是基于文本的”。)
使用神剑
注意:您需要先然后再进行操作。
后,您需要使用以下方法初始化元数据数据库:
$ excalibur initdb
然后使用以下命令启动网络服务器:
$ excalibur webserver
就是这样! 现在,您可以转到并开始从PDF中提取表格数据。
上载PDF,然后输入要从中提取表格的页码。
转到每个页面并通过在其周围绘制一个框来选择表。 (您可以选择跳过此步骤,因为Excalibur可以自行自动检测表格。单击“自动检测表格”
1