在 Machine Learning 中,LDA 是两个常用模型的简称: Linear Discriminant Analysis 和 Latent Dirichlet Allocation, 在这篇文章中我们主要八卦的是后者。LDA 是一个在文本建模中很著名的模型,类似于 SVD, PLSA 等模型, 可以用于浅层语义分析,在文本语义分析中是一个很有用的模型。很不幸的是,这个模型中涉及的数学知识有点多, 包括 Gamma 函数, Dirichlet 分布, Dirichlet-Multinomial 共轭, Gibbs Sampling, Variational Inference, 贝叶斯文本建模,PLSA 建模, 以及 LDA 文本建模。 这篇文章的主要目标,就是科普在学习理解LDA 模型中,需要了解的一些重要的数学知识。 预设的读者是做自然语言处理、机器学习、数据挖掘方向的工程师, 要读懂这篇科普,需要的数学基础知识基本上不超过陈希孺先生的《概率论与数理统计》这本书。
2021-12-11 21:40:09 1.94MB LDA 靳志辉 Gibbs Sampling
1