词嵌入的连续空间主题模型 描述 实现了带有单词嵌入的连续空间主题模型,这是Daichi Mochihashi的增强模型。 环境 C ++ 14+ lang ++ 9.0 提升1.71.0 glog 0.4.0 gflag 2.2.2 boost-python3 python3 用法 准备基于文档的语料库并将其分为训练数据集和验证数据集 用MCMC训练ETM。 $ make $ ./cstm -ndim_d=20 -ignore_word_count=4 -epoch=100 -num_threads=1 -data_path=./data/train/ -validation_data_path=./data/validation/ -model_path=./model/cstm.model 参考
2024-07-01 21:04:16 37KB
1
[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:拉链处理 第十一章:分布式处理增量 第十二章:列式存储 第十三章:逻辑数据模型(数仓模型) 第十四章:数据模型参考 第十五章:维模型 第十六章:渐变维 第十七章:数据回滚 第十八章:关于报表 第十九章:数据挖掘 数据仓库实践杂谈(十四)——数据模型参考 众所周知,信息系统最重要的作用就是处理并保存信息,尤其在商业应用中。以银行记账为例,最重要的是账本,不管前面的流程如何,只要记下来张三某年某月存入100元,业务就算完
2024-05-10 15:27:30 366KB 主题模型
1
word2vec java版源码LF-LDA 和 LF-DMM 潜在特征主题模型 LF-LDA 和 LF-DMM 潜在特征主题模型的实现,如我的 TACL 论文中所述: Dat Quoc Nguyen、Richard Billingsley、Lan Du 和 Mark Johnson。 . 计算语言学协会汇刊,卷。 3,第 299-313 页,2015 年。 LDA 和 DMM 主题模型的实现可在 用法 本节使用预编译的LFTM.jar文件描述命令行或终端中实现的用法。 在这里,预计 Java 1.7+ 已经设置为在命令行或终端中运行(例如:在 Windows 操作系统中将 Java 添加到path环境变量中)。 预编译的LFTM.jar文件和源代码分别位于jar和src文件夹中。 用户可以通过简单地运行ant重新编译源代码(也期望已经安装了ant )。 此外,用户可以在test文件夹中找到输入示例。 输入主题建模语料库的文件格式 与test文件夹中的corpus.txt文件类似,输入的主题建模语料库中的每一行代表一个文档。 这里,文档是由空格字符分隔的序列词/标记。 用户在训练主题模
2023-04-18 11:55:20 7.25MB 系统开源
1
jLDADMM:用于LDA和DMM主题模型的Java包 jLDADMM已发布,它为普通或短文本上的主题建模提供了替代方法。 概率主题模型,例如潜在狄利克雷分配(LDA)[1]和相关模型[2],被广泛用于发现文档集中的潜在主题。 但是,由于数据稀疏性以及此类文本中的上下文有限,将主题模型应用于短文本(例如Tweets)更具挑战性。 一种方法是在训练LDA之前将短文本组合成长的伪文档。 另一种方法是假设每个文档只有一个主题[3]。 jLDADMM提供了LDA主题模型[1]和每个文档一个主题的Dirichlet多项式混合(DMM)模型(即,字母组合的混合)[4]的实现。 LDA和DMM的实现分别使
2023-04-18 11:35:19 133KB nlp topic-modeling lda short-text
1
主题识别+信息提取模型-基于python实现-LDA--LDA主题模型,可以用于社交网络数据分析研究、异常检测、事件检测与演化模型分析、情感分析、链接预测,信息传播等方面的研究
2022-12-01 14:13:50 24KB python 综合资源 开发语言
1
情境化主题模型 上下文化主题模型(CTM)是一系列主题模型,这些主题模型使用语言的预训练表示形式(例如BERT)来支持主题建模。有关详细信息,请参见论文: Bianchi,F.,Terragni,S.,Hovy,D.,Nozza,D.,&Fersini,E.(2021)。具有零镜头学习功能的跨语言情境主题模型。 EACL。 Bianchi,F.,Terragni,S.和Hovy,D.(2020年)。预培训是一个热门话题:上下文化文档嵌入可提高主题一致性 具有上下文嵌入的主题建模 我们的新主题建模系列支持许多不同的语言(即,HuggingFace模型支持的一种),并有两个版本: CombinedTM将上下文嵌入与旧的单词组合在一起,以使主题更连贯; ZeroShotTM是完成任务的理想主题模型,在该模型中,您可能在测试数据中缺少单词,并且,如果经过多语言嵌入训练,则可以继承多语言主题模型
2022-08-13 12:32:38 31.14MB nlp embeddings transformer topic-modeling
1
基于BM25算法的主题模型优化算法,李宇坤,陈光,本文介绍了一种表示和检测微博热点话题的新方法,该方法发现的话题具有更好的可读性和独立性。不同于传统热点话题发现算法,本文��
2022-05-15 22:01:37 523KB 自然语言处理
1
评价中医药方剂的相似度的常用方法是基于方剂的功效和主治功能进行相似度分析,但存在相似度无法定量化的问题,并且没有考虑中医方剂组成成分的影响。提出了利用LDA主题模型发掘“方剂—证型—组成成分”的隐含关系的方法,将“方剂—组成成分”转换成“方剂—证型”和“证型—组成成分”两个概率分布,并利用KL距离来计算相似度。实验结果表明基于LDA主题模型的方法能够更好地计算方剂间的相似度,并且能较好地反映中医辩证论治。
1