PHP 文章提取器
这是一个用于 PHP 的网络文章解析和语言检测库。 该库从网页读取文章内容,删除所有 HTML 并仅提供原始文本,适用于文本到语音或机器学习过程。
对于我开发的一个项目,我发现许多现有的开源解决方案很好的起点,但每个都有独特的失败。 该库将三种不同的方法聚合到一个解决方案中,同时添加了语言检测的附加功能。
如何使用
这个库是通过 packagist.org 分发的,所以你可以使用 composer 来检索依赖项
composer require crscheid/php-article-extractor
通过 URL 调用
该库将尝试为您检索 HTML。 您只需创建一个 ArticleExtractor 类并在其上调用parseURL函数,传入所需的 URL。
use Cscheide \ ArticleExtractor \ ArticleExtractor
1