PLSI Implementation
How to extract features for the dataset
特征矩阵为t_d[V,D], V表示单词的数目,D表示文档的数目。过滤掉文档中包含的stopwords中的单词。
Source Code Explanation
在源代码中,包含如下几个文件:
plsa.py : plsa的具体实现和一些用到的函数,如loglikelihood的计算公式,normlize的计算。
pprocess.py : 对data.txt的预处理,包括stopword的过滤,构造term_document矩阵,构造word到word_id的影射,doc到doc_id的影射。
main.py : 程序的入口,调用plsa.py和pprocess.py,按照topic从3到D便利,每次pLSA计算的loglihood和每个topic对应的10个关键词以及
2022-04-27 21:43:58
616KB
Python
1