伯特比
BERTopic是一种利用主题建模技术 :hugging_face: 转换程序和c-TF-IDF创建密集的群集,使主题易于理解,同时在主题描述中保留重要字词。 它甚至支持类似于LDAvis的可视化!
相应的媒体帖子可以在找到。
安装
可以使用完成安装:
pip install bertopic
要使用可视化选项,请按照以下步骤安装BERTopic:
pip install bertopic[visualization]
安装错误推荐使用PyTorch 1.4.0或更高版本。 如果安装出现错误,请首先安装pytorch。
入门
要详细了解BERTopic的功能,您可以在查看完整的文档也可以Google Colab笔记本。
快速开始
我们首先从著名的20个新闻组数据集中提取主题,该数据组由英文文档组成:
from bertopic import BERTopic
from sklearn . datasets import fetch_20newsgroups
docs = fetch_20newsgroups ( subset = 'all' , remove
1