针对短文本特征稀疏、噪声大等特点,提出一种基于 LDA 高频词扩展的方法,通过抽取每个类别的高频词作为向量空间模型的特征空间,用 TF-IDF 方法将短文本表示成向量,再利用 LDA 得到每个文本的隐主题特征,将 概率大于某一阈值的隐主题对应的高频词扩展到文本中,以降低短文本的噪声和稀疏性影响。实验证明,这种方法的分类性能高于常规分类方法
2019-12-21 21:41:21 624KB LDA 短文本分类
1
最全的同义词表,可用于词扩展。给出前几行: #大自然 混沌 空间 六合 乾坤 时间 世界 太空 外层空间 万物 万象 宇宙 宇宙空间 造化 自然 自然界 #混沌 大自然 空间 六合 乾坤 时间 世界 太空 外层空间 万物 万象 宇宙 宇宙空间 造化 自然 自然界
2019-12-21 18:58:51 5.58MB 同义词 词扩展 信息检索
1