DA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。 这是论坛上高手所总结。
2021-11-29 15:49:52 3.06MB python
1
(PyTorch)自编码变分推断主题模型
2021-11-26 11:18:36 2.9MB Python开发-机器学习
1
概率潜在语义分析简称pLSA(Probabilisticlatent semantic analysis)基于双模式和共现的数据分析方法延伸的经典的统计学方法。概率潜在语义分析应用于信息检索,过滤,自然语言处理,文本的机器学习或者其他相关领域。 概率潜在语义分析与标准潜在语义分析的不同是,标准潜在语义分析是以共现表(就是共现的矩阵)的奇异值分解的形式表现的,而概率潜在语义分析却是基于派生自LCM的混合矩阵分解。考虑到word和doc共现形式,概率潜在语义分析基于多项式分布和条件分布的混合来建模共现的概率。所谓共现其实就是W和D的一个矩阵,所谓双模式就是在W和D上同时进行考虑。基于概率统计的PLSA模型,用EM算法学习模型参数。
2021-11-22 21:14:05 7.43MB 语义分析
1
stm:结构主题模型的R包 网站: 小插图: 作者:( ,( 和( 请通过电子邮件将所有评论/问题发送到bms4 [AT] princeton.edu 概括 该存储库将托管该软件包的开发版本。 它也可以在CRAN上使用。 它在我们称为结构主题模型(stm)的框架中实现了变体EM算法,用于估计带有协变量的主题模型。 该软件包当前包含以下功能: 摄取和处理文本数据 估计结构主题模型 计算具有不确定性的潜在主题的协变量效应 估计主题相关图 创建我们各种论文中使用的所有图 其他资源 是否有大型文本语料库或需要我们不支持的语言? 看到我们的姐妹项目 请参阅其他材料,网址为www.structuraltopicmodel.com。 安装说明 假设您已经安装了R(如果看不到http://www.r-project.org/ ),则要安装CRAN版本,只需使用: install.pac
2021-11-21 15:09:36 2.34MB R
1
员工对公司的评价 抓取 Indeed 获取与给定关键字匹配的所有近期职位列表,然后抓取 Indeed 和 Glassdoor 对提供职位的公司的评论。 绘制评级,并在评论上使用主题建模来了解员工如何看待他们的公司。 可视化主题。 由 Henri Dwyer 用 Python 编写。 入门 两个 ipython 笔记本展示了如何使用该库来抓取和绘制评级。 在本地运行它们或查看它们托管: 主题建模 对于主题建模,您可以使用分层狄利克雷过程。 我用 C++ 修改了 Chong Wang 和 David Blei 编写的库: 这个 ipython 笔记本展示了如何准备用于 HDP 库的数据,以及如何从结果中探索主题。 进一步阅读 一个例子:
2021-11-18 16:44:29 267KB Python
1
nlp-LDA主题模型演示 这是针对python LDA主题模型演示 该文件用于txt文件。 主要研究对象是covid-19
2021-11-16 17:46:54 6KB Python
1
该代码是LDA主题模型,里面程序很完整,多种不同方法实现LDA,包括Gibbs采样等
2021-11-04 15:25:36 8.13MB LDA Gibbs Matlab
1
基于最小领域知识的主题建模 ,一种基于融合知识的主题模型的微博话题发现方法,涉及自然语言处理领域 传统的主题挖掘技术基于概率统计的混合模型,对文本信息进行建模,使得模型能够自动挖掘出文本中潜在的语义信息,使用户能够快速的了解文本中所涉及的内容。通过主题模型,不仅能够获得文本集合中主要涉及的信息,而且能够获得每篇文档中的内容信息。常见的主题模型有概率潜在语义分析(ProbabilisticLatentSemanticAnalysis,PLSA)模型[1]和潜在狄利克雷分配(LatentDirichletAllocation,LDA)模型[2]。但该类技术仅考虑文本集合中的文本信息,其他有用的信息,如文本的类别信息等,无法被利用起来。
2021-11-04 12:26:59 526KB 主题模型 Topic Modeling
1
主题模型领域相关资料,主要是以LDA主题模型为基础进行的改进
2021-10-20 11:36:14 2.97MB LDA 主题模型
1
| 近年来提出的神经主题模型变体的PyTorch实现包括NVDM-GSM,WTM-MMD(W-LDA),WTM-GMM,ETM,BATM和GMNTM。 该项目的目的是为神经主题模型提供一个实用且可行的示例,以促进相关领域的研究。 模型的配置与论文中提出的模型并不完全相同,并且没有对超参数进行仔细的微调,但是我选择覆盖其中的核心思想。 从经验上讲,NTM优于经典的统计主题模型,尤其是在短文本上。 出于评估目的,提供了短消息( ),对话话语( )和对话( )的数据集,所有这些均以中文显示。 作为与NTM的比较,还提供了基于gensim库的现成的LDA脚本。 如果您对此实施有任何疑问或建议,请随时与我联系。 为了更好,欢迎加入我的行列。 ;) 注意:如果发现加载此自述文件的图片太慢,则可以在我的博客上阅读此。 目录 2.6 BATM 3.数据集 3.1 cnews10k 3.
2021-10-18 17:24:19 22.99MB JupyterNotebook
1