tika-python 绑定到 Apache Tika REST 服务
Python binding to the Apache Tika REST services
Apache Tika 库的 Python 端口,可使用 Tika REST 服务器使 Tika 可用。这使得 Apache Tika 可作为 Python 库使用,可通过 Setuptools、Pip 进行安装,并且易于安装。要使用这个库,您需要在系统上安装 Java 7+,因为 tika-python 在后台启动 Tika REST 服务器。-
特征
解析器接口(在 REST 之前向后兼容)
解析器接口使用 /rmeta 接口提取文本和元数据
或者,您可以将 Tika 服务器 URL 与对多实例执行有用的调用一起传递
指定 XHTML 的输出格式
解包接口在一次调用中处理元数据和文本提取
在内部返回内部解包的元数据和文本条目的 tarball
1