分层潜在Dirichlet分配 分层潜在狄利克雷分配(hLDA)解决了从数据中学习主题层次结构的问题。 该模型依赖于称为嵌套中国餐厅过程的非参数先验,该过程允许任意大的分支因子,并可以轻松容纳不断增长的数据收集。 hLDA模型将此先验与基于潜在Dirichlet分配的分层变体的可能性相结合。 执行 是用于hLDA推断的Gibbs采样器,基于的实现,在nCRP树上具有固定的深度。 安装 只需使用pip install hlda即可安装该软件包。 可以在找到一个示例笔记本,该笔记本可以推断BBC Insight语料库上的层次结构主题。
1
用Python实现L-LDA模型(标签潜在Dirichlet分配模型) 参考: 标记的LDA:多标签语料库中信用归因的受监管主题模型Daniel Ramage ... 文本分析的参数估计,Gregor Heinrich。 潜在的Dirichlet分配,David M. Blei,Andrew Y. Ng ... 基于Gibbs采样的有效实现 以下描述来自标签LDA:多标签语料库中信用归因的受监督主题模型Daniel Ramage ... 介绍: 标记的LDA是通过定义LDA潜在主题和用户标签之间的一一对应关系来约束潜在Dirichlet分配的主题模型。 带有标签的LDA可以直接学习主题(标签)对应关系。 吉布斯采样: 标记的LDA的图形模型: 标记LDA的生成过程: 吉布斯采样方程式: 用法 新的llda模型 训练 ?is_convergence 更新 推理 将模型保存到
2021-09-09 17:50:13 291KB python python3 topic-modeling python2
1
锚定的CorEx:具有最少领域知识的分层主题建模 肺心病的关系防爆夷(COREX)是一个主题模式,产生丰富的主题,最大程度地提供信息有关的一套文件。 与其他主题模型相比,使用CorEx的优势在于,可以根据用户的需要轻松地将其作为无监督,半监督或分层的主题模型来运行。 对于半监督,CorEx允许用户通过“锚词”集成他们的领域知识。 这种集成是灵活的,并允许用户在这些单词的方向上指导主题模型。 这允许采用创新策略来促进主题表示,可分离性和方面。 更一般而言,CorEx的这种实现方式适合于聚类任何稀疏的二进制数据。 如果使用此代码,请引用以下内容: Gallagher,RJ,Reing,K.,Kale,D。和Ver Steeg,G。“。” 计算语言学协会(TACL)的交易,2017年。 入门 安装 可以通过pip安装CorEx主题模型的Python代码: pip install corex
1
gsdmm-short-text-topic-modeling:GSDMM的短文本主题建模实现
2021-06-27 23:56:10 1.11MB JupyterNotebook
1
支持LDA、AT、HMM-LDA模型,功能多样。尤其是HMM-LDA可以进行自动过滤停用词的主题模型分析。
2021-03-08 17:13:27 17.19MB matlab topic model 主题模型
1
Whatsapp聊天主题建模
2021-02-22 10:04:51 9KB topic-modeling lda JupyterNotebook
1