更新:现在可以嵌入预训练的通用句子编码器和BERT句子转换器。阅读。
Top2Vec
Top2Vec是用于主题建模和语义搜索的算法。它会自动检测文本中存在的主题,并生成联合嵌入的主题,文档和单词向量。训练Top2Vec模型后,您可以:
获取检测到的主题数。
获取主题。
获取主题大小。
获取层次结构主题。
通过关键字搜索主题。
按主题搜索文档。
通过关键字搜索文档。
查找类似的单词。
查找类似的文档。
使用公开模型
有关其工作原理的更多详细信息,请参见。
好处
自动查找主题数。
无需停用词列表。
无需词干/词形限制。
适用于短文本。
创建联合嵌入的主题,文档和单词向量。
内置搜索功能。
它是如何工作的?
该算法所做的假设是,许多语义上相似的文档都表明了一个潜在的主题。第一步是创建文档和单词向量的联合嵌入。将文档和单词嵌入向量空间后,算法的目标是找到文档的密集簇,然后确定哪些单词将这些文档
1