上传者: 42127937
|
上传时间: 2021-10-05 21:54:08
|
文件大小: 59KB
|
文件类型: -
主题建模
一个从头复制了多个主题建模算法的仓库
pLSA概率潜在语义分析-plsa.py 原始论文可在中找到,使用EM算法估计主题分布,每个文档中的单词分布
潜在狄利克雷分配(LDA)算法-lda.py 原始论文可以在这里找到 ,我使用的MCMC算法是折叠的Gibbs采样 ,对我来说,它比原始作者提出的变分推理更容易实现。 我在一个小的数据集上进行了测试,该数据集包含约120条Yelp评论,涵盖了三个主要类别(海鲜,水暖,宠物店)。该算法可以清楚地识别每个主题的关键字。
短文本算法的双项主题模型-btm.py 原始论文可以在中找到,我在这里使用的MCMC算法是吉布斯采样法
Twitter主题建模原始论文可以在找到
Yelp数据集开源评论数据