锚定的CorEx:具有最少领域知识的分层主题建模
肺心病的关系防爆夷(COREX)是一个主题模式,产生丰富的主题,最大程度地提供信息有关的一套文件。 与其他主题模型相比,使用CorEx的优势在于,可以根据用户的需要轻松地将其作为无监督,半监督或分层的主题模型来运行。 对于半监督,CorEx允许用户通过“锚词”集成他们的领域知识。 这种集成是灵活的,并允许用户在这些单词的方向上指导主题模型。 这允许采用创新策略来促进主题表示,可分离性和方面。 更一般而言,CorEx的这种实现方式适合于聚类任何稀疏的二进制数据。
如果使用此代码,请引用以下内容:
Gallagher,RJ,Reing,K.,Kale,D。和Ver Steeg,G。“。” 计算语言学协会(TACL)的交易,2017年。
入门
安装
可以通过pip安装CorEx主题模型的Python代码:
pip install corex
1