文中介绍了当前比较主流的主题模型LSA.PLSA ,LDA等,同时分析了其演化过程和关联关系。另外,介绍了LDA的一些变种。对于学习主题模型的同学来说,这是一个相当不错的总结。
2022-04-11 16:03:50 600KB 主题模型 LDA LSA PLSA
1
潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)是一种流行的三层概率主题模型,其实现了文本与文本中的单词在主题层次上的聚类。该模型以词袋(Bag of Words,BOW)模型为假设,所有单词的重要性相同,简化了建模的复杂度,但使得主题分布倾向于高频词,影响了主题模型的语义连贯性。针对此问题,提出了一种基于动态权重的LDA算法,该算法的基本思想是每个单词在建模中具有不同的重要性,在迭代过程中根据单词的主题分布动态生成相应的权重并反作用于主题建模,降低了高频词对建模的影响,提高了关键词的重要性。在4个公开数据集上的实验表明,基于动态权重的LDA算法在主题语义连贯性、文本分类准确率、泛化性能和精度方面比目前流行的LDA推理算法表现得更加优越。
1
基于LDA主题模型的文本聚类研究,张晓,,文本聚类是文本挖掘和信息组织导航的重要手段和方法,针对传统的基于VSM向量空间模型在文本聚类时存在的高维稀疏问题,以及不能从��
2022-03-31 21:56:54 326KB 文本聚类
1
华侨城 OCTIS(优化和比较主题模型很简单)旨在训练,分析和比较主题模型,其最佳超参数通过贝叶斯优化方法进行估算。 安装 您可以使用以下命令安装OCTIS: pip install -e . 您可以在requirements.txt文件中找到需求。 特征 我们提供了一组最新的预处理文本数据集(或者您可以预处理自己的数据集) 我们提供了一组著名的主题模型(经典模型和神经模型),或者您可以集成自己的模型 您可以使用几种最新的评估指标来评估模型 您可以使用贝叶斯优化相对于给定指标优化模型的超参数 我们提供了一个简单的网络信息中心,用于启动和控制优化实验 获取预处理的数据集 要获取数据集,您可以使用内置源之一。 from octis . dataset . dataset import Dataset dataset = Dataset () dataset . load ( "oc
1
双项 双项主题模型 参数清单 INFILE =数据文件 num_topics =主题数 alpha,beta =模型超参数
2022-03-07 16:48:25 1.27MB Python
1
这个是LDA的源代码,里面实现了中文分词,以及有实际的数据,我都已经写好了,可以把数据以文件夹的形式读入,方便使用
2022-03-04 19:59:58 24.74MB LDA;主题模型
1
本本章上关于主题模型在个性化新闻推荐系统上的应用,以推测读者意图,来依据个性化进行新闻推荐
2022-03-04 18:00:16 14.36MB 主题模型plsa
1
主题模型教程 此存储库包含简短教程“使用 Scikit-learn 进行主题建模”的笔记本、幻灯片和数据,该教程于 2017 年 9 月在发布。 内容 涵盖摘要教程。 有三个关联的 IPython 笔记本: :提供使用scitkit-learn预处理文档的基本介绍。 :涵盖了通过scitkit-learn提供的 NMF 实现对主题模型的应用和解释。 :关于使用主题一致性为 NMF 选择主题数量的更高级材料。 为了演示主题建模技术,一个示例数据集。 这包括 2016 年从收集的 4,551 篇新闻文章,存储在单个文本文件 (25MB) 中,每行一篇文章。 依赖关系 此代码已使用 Python 3.6-3.8 进行了测试。 核心包要求是: scikit 学习 麻木的 matplotlib 模型选择代码也依赖gensim包构建Word2Vec模型(用v4.0.1测试)。 示例数据集的
2022-03-04 13:05:11 13.91MB JupyterNotebook
1
基于WMF_LDA主题模型的文本相似度计算
2022-02-28 21:08:43 1.17MB 研究论文
1
在线-hdp 分层狄利克雷过程的在线推理。 使分层 Dirichlet 过程主题模型适合海量数据。 该算法确定主题的数量。 。 参考 Chong Wang、John Paisley 和 David M. Blei。 分层狄利克雷过程的在线变分推理。 在 AISTATS 2011 中。口头报告。
2022-02-23 21:44:48 23KB Python
1