基于最小领域知识的主题建模 ,一种基于融合知识的主题模型的微博话题发现方法,涉及自然语言处理领域
传统的主题挖掘技术基于概率统计的混合模型,对文本信息进行建模,使得模型能够自动挖掘出文本中潜在的语义信息,使用户能够快速的了解文本中所涉及的内容。通过主题模型,不仅能够获得文本集合中主要涉及的信息,而且能够获得每篇文档中的内容信息。常见的主题模型有概率潜在语义分析(ProbabilisticLatentSemanticAnalysis,PLSA)模型[1]和潜在狄利克雷分配(LatentDirichletAllocation,LDA)模型[2]。但该类技术仅考虑文本集合中的文本信息,其他有用的信息,如文本的类别信息等,无法被利用起来。
1