更新:现在可以嵌入预训练的通用句子编码器和BERT句子转换器。阅读。 Top2Vec Top2Vec是用于主题建模和语义搜索的算法。它会自动检测文本中存在的主题,并生成联合嵌入的主题,文档和单词向量。训练Top2Vec模型后,您可以: 获取检测到的主题数。 获取主题。 获取主题大小。 获取层次结构主题。 通过关键字搜索主题。 按主题搜索文档。 通过关键字搜索文档。 查找类似的单词。 查找类似的文档。 使用公开模型 有关其工作原理的更多详细信息,请参见。 好处 自动查找主题数。 无需停用词列表。 无需词干/词形限制。 适用于短文本。 创建联合嵌入的主题,文档和单词向量。 内置搜索功能。 它是如何工作的? 该算法所做的假设是,许多语义上相似的文档都表明了一个潜在的主题。第一步是创建文档和单词向量的联合嵌入。将文档和单词嵌入向量空间后,算法的目标是找到文档的密集簇,然后确定哪些单词将这些文档
2023-03-09 13:56:41 6.48MB word-embeddings topic-modeling semantic-search bert
1
Topic2Vector是用于主题建模和语义搜索的算法。它自动检测文本中存在的主题,并生成联合嵌入的主题,文档和单词向量。op2Vec - Generate topic, document and word embeddings.' by Dimo Angelov 安装Top2Vec的简单方法是:pip install top2vec 用法 从 top2vec 导入 Top2Vec 型号= Top2Vec(文档) 参数: documents:输入语料库,应为字符串列表。 speed:此参数将确定模型训练的速度。“快速学习”选项是最快的,将生成最低质量的向量。“学习”选项将学习更好的质量向量,但需要花费更长的时间进行训练。“深度学习”选项将学习最佳质量的向量,但将花费大量时间进行训练。 workers:用于训练模型的工作线程数量。较大的数量将导致更快的培训。 经过训练的模型可以保存和加载。 model.save(“ filename ”) 型号= Top2Vec.load(“ filename ”)
2021-03-10 16:19:58 6.26MB Top2Vec 题建模
1