lda2vec Moody的lda2vec的pytorch实现,这是一种使用词嵌入的主题建模方法。 原始论文: 。 警告:我个人认为使lda2vec算法起作用非常困难。 有时它找到几个主题,有时却找不到。 通常,找到的很多话题都是一团糟。 该算法易于产生较差的局部最小值。 它在很大程度上取决于初始主题分配的值。 对于我的结果,请参阅20newsgroups/explore_trained_model.ipynb 。 另请参见下面的实现详细信息。 失利 培训进行如下。 首先,将文档语料库转换为一组元组{(document id, word, the window around the word) | for each word in the corpus} {(document id, word, the window around the word) | for each word
2021-12-13 14:45:07 1.68MB pytorch topic-modeling word-vectors JupyterNotebook
1
中文单词向量 该项目提供了100多个中文单词向量(嵌入),它们经过不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库的训练。 可以轻松获得具有不同属性的预训练向量,并将其用于下游任务。 此外,我们提供了一个中文类比推理数据集CA8和一个评估工具包,供用户评估其词向量的质量。 参考 如果使用这些嵌入和CA8数据集,请引用该论文。 沉力,赵哲,胡仁芬,李文思,刘涛,杜小勇, ,ACL 2018。 @InProceedings{P18-2023, author = "Li, Shen and Zhao, Zhe and Hu, Renfen and Li, Wensi and Liu, Tao and Du, Xiaoyong", title = "Analogical Reasoning on Chinese M
2021-06-03 19:26:17 354KB word-embeddings embeddings chinese embedding
1