PyTextRank
PyTextRank是一个Python实现TextRank作为,用于:
从文本文档中提取排名靠前的短语
对文本文档进行低成本的提取摘要
帮助推断从非结构化文本到结构化数据的链接
背景
与的更普遍用法相比, PyTextRank的目标之一是(最终)为提供支持。 这些方法可以互补的方式一起使用,以改善总体结果。
图算法的引入-特别是-为集成其他技术以增强执行的自然语言工作提供了更加灵活和强大的基础。 此处的实体链接方面仍然是计划中的后续版本,正在进行中。
在内部PyTextRank构造一个引理图以表示候选短语(例如,无法识别的实体)及其支持语言之间的链接。 一般而言,在短语排名之前丰富该图的任何方法都将倾向于改善结果。 丰富引理图的可能方法包括共和,以及在一般情况下利用知识图。
例如, 和都提供了推断实体之间链接的方法,并且可以将特定目的的知识图应用于特定的用例。 即使在文本中链接不是明确的情况下,这些也可以帮助丰富引理图。 考虑一段用不同的句子提到cats和kittens的段落:这两个名词之间存在隐含的语义关系,因为外kitten是外cat -因此可以在它
1