电子取款机
这是Adji B. Dieng,Francisco JR Ruiz和David M. Blei题为“嵌入空间中的主题建模”的论文的代码。 (Arxiv链接: ://arxiv.org/abs/1907.04907)
ETM在相同的嵌入空间中定义单词和主题。 ETM下的单词可能性是分类的,其自然参数由单词嵌入与其指定主题的嵌入之间的点积给出。 ETM是一个文档模型,可学习可解释的主题和单词嵌入,并且对于包含稀有单词和停用词的大量词汇表具有较强的鲁棒性。
依存关系
python 3.6.7
pytorch 1.1.0
数据集
所有数据集均经过预处理,可以在以下位置找到:
(其中包含停用词,用于展示ETM停用词的鲁棒性。)
可以在文件夹“ scripts”中找到所有用于预处理给定ETM数据集的脚本。 20NewsGroup的脚本是独立的,因为它使用scikit-learn
2024-07-01 20:55:32
3.42MB
Python
1