针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用 LDA 主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用 SVM 分类方法进行短文本的分类。实验表 明,该方法在性能上与传统的直接使用 VSM 模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充 LDA 特征信息的方法是切实可行的。
2019-12-21 18:56:42 1.14MB LDA 短文本分类
1