上传者: 42153691
|
上传时间: 2022-03-04 13:05:11
|
文件大小: 13.91MB
|
文件类型: -
主题模型教程
此存储库包含简短教程“使用 Scikit-learn 进行主题建模”的笔记本、幻灯片和数据,该教程于 2017 年 9 月在发布。
内容
涵盖摘要教程。 有三个关联的 IPython 笔记本:
:提供使用scitkit-learn预处理文档的基本介绍。
:涵盖了通过scitkit-learn提供的 NMF 实现对主题模型的应用和解释。
:关于使用主题一致性为 NMF 选择主题数量的更高级材料。
为了演示主题建模技术,一个示例数据集。 这包括 2016 年从收集的 4,551 篇新闻文章,存储在单个文本文件 (25MB) 中,每行一篇文章。
依赖关系
此代码已使用 Python 3.6-3.8 进行了测试。 核心包要求是:
scikit 学习
麻木的
matplotlib
模型选择代码也依赖gensim包构建Word2Vec模型(用v4.0.1测试)。 示例数据集的