自动摘要,就是从文章中自动抽取关键句。人类对关键句的理解通常是能够概括文章中心的句子,而机器只能模拟人类的理解,即拟定一个权重的评分标准,给每个句子打分,之后给出排名靠前的几个句子。基于 TextRank 的自动文摘属于自动摘录,通过选取文本中重要度较高的句子形成文摘。
我们是要抽取关键句,因而是以句子为基本单位。使用 TextRank 提取摘要的整个过程如下:
预处理:将文本分割成句子 S1,S2,⋯,SmS1,S2,⋯,Sm,以句子为节点构建图。
计算句子相似度:对句子进行分词、取停用词等处理,以便于计算任意两个句子之间的相似度。将计算好的句子相似度作为两个句子构成的边的权值。
句子权重:根据公式,迭代传播权重计算各句子的得分。
抽取文摘句:得到的句子得分进行倒序排序,抽取重要度最高的 N 个句子作为候选文摘句。
形成文摘:根据字数或句子数要求,从候选文摘句中抽取句子组成文摘。
1