word2vec java版源码LF-LDA 和 LF-DMM 潜在特征主题模型 LF-LDA 和 LF-DMM 潜在特征主题模型的实现,如我的 TACL 论文中所述: Dat Quoc Nguyen、Richard Billingsley、Lan Du 和 Mark Johnson。 . 计算语言学协会汇刊,卷。 3,第 299-313 页,2015 年。 LDA 和 DMM 主题模型的实现可在 用法 本节使用预编译的LFTM.jar文件描述命令行或终端中实现的用法。 在这里,预计 Java 1.7+ 已经设置为在命令行或终端中运行(例如:在 Windows 操作系统中将 Java 添加到path环境变量中)。 预编译的LFTM.jar文件和源代码分别位于jar和src文件夹中。 用户可以通过简单地运行ant重新编译源代码(也期望已经安装了ant )。 此外,用户可以在test文件夹中找到输入示例。 输入主题建模语料库的文件格式 与test文件夹中的corpus.txt文件类似,输入的主题建模语料库中的每一行代表一个文档。 这里,文档是由空格字符分隔的序列词/标记。 用户在训练主题模
2023-04-18 11:55:20 7.25MB 系统开源
1
jLDADMM:用于LDA和DMM主题模型的Java包 jLDADMM已发布,它为普通或短文本上的主题建模提供了替代方法。 概率主题模型,例如潜在狄利克雷分配(LDA)[1]和相关模型[2],被广泛用于发现文档集中的潜在主题。 但是,由于数据稀疏性以及此类文本中的上下文有限,将主题模型应用于短文本(例如Tweets)更具挑战性。 一种方法是在训练LDA之前将短文本组合成长的伪文档。 另一种方法是假设每个文档只有一个主题[3]。 jLDADMM提供了LDA主题模型[1]和每个文档一个主题的Dirichlet多项式混合(DMM)模型(即,字母组合的混合)[4]的实现。 LDA和DMM的实现分别使
2023-04-18 11:35:19 133KB nlp topic-modeling lda short-text
1
主题识别+信息提取模型-基于python实现-LDA--LDA主题模型,可以用于社交网络数据分析研究、异常检测、事件检测与演化模型分析、情感分析、链接预测,信息传播等方面的研究
2022-12-01 14:13:50 24KB python 综合资源 开发语言
1
情境化主题模型 上下文化主题模型(CTM)是一系列主题模型,这些主题模型使用语言的预训练表示形式(例如BERT)来支持主题建模。有关详细信息,请参见论文: Bianchi,F.,Terragni,S.,Hovy,D.,Nozza,D.,&Fersini,E.(2021)。具有零镜头学习功能的跨语言情境主题模型。 EACL。 Bianchi,F.,Terragni,S.和Hovy,D.(2020年)。预培训是一个热门话题:上下文化文档嵌入可提高主题一致性 具有上下文嵌入的主题建模 我们的新主题建模系列支持许多不同的语言(即,HuggingFace模型支持的一种),并有两个版本: CombinedTM将上下文嵌入与旧的单词组合在一起,以使主题更连贯; ZeroShotTM是完成任务的理想主题模型,在该模型中,您可能在测试数据中缺少单词,并且,如果经过多语言嵌入训练,则可以继承多语言主题模型
2022-08-13 12:32:38 31.14MB nlp embeddings transformer topic-modeling
1
基于BM25算法的主题模型优化算法,李宇坤,陈光,本文介绍了一种表示和检测微博热点话题的新方法,该方法发现的话题具有更好的可读性和独立性。不同于传统热点话题发现算法,本文��
2022-05-15 22:01:37 523KB 自然语言处理
1
评价中医药方剂的相似度的常用方法是基于方剂的功效和主治功能进行相似度分析,但存在相似度无法定量化的问题,并且没有考虑中医方剂组成成分的影响。提出了利用LDA主题模型发掘“方剂—证型—组成成分”的隐含关系的方法,将“方剂—组成成分”转换成“方剂—证型”和“证型—组成成分”两个概率分布,并利用KL距离来计算相似度。实验结果表明基于LDA主题模型的方法能够更好地计算方剂间的相似度,并且能较好地反映中医辩证论治。
1
北大的李晓明老师不用说了吧,仅这个名字就是质量的保证。 关于LDA非常好的一篇文章,值得一读!
2022-04-22 15:43:23 1.18MB 主题模型 LDA
1
文中介绍了当前比较主流的主题模型LSA.PLSA ,LDA等,同时分析了其演化过程和关联关系。另外,介绍了LDA的一些变种。对于学习主题模型的同学来说,这是一个相当不错的总结。
2022-04-11 16:03:50 600KB 主题模型 LDA LSA PLSA
1