跨语言文本相似度计算是挖掘蒙汉可比语料的基础和关键,其结果直接影响了可比语料的质量。本文通过分析新闻文本特点,提出了一种融合多特征的跨语言新闻文本相似度计算方法。该方法首先抽取新闻的发布日期、标题及正文信息作为特征,再利用双语文档发布日期的差异、正文长度关系、正文阿拉伯数字相似度、标题重合程度及正文重合程度五种启发信息进行加权线性组合来判断相似程度。实验表明,本文提出的方法能明显提高蒙汉新闻文本相似度计算的准确率。
2021-03-02 12:05:12 661KB 跨语言;新闻文本;文本相似度
1