利用Word2Vec和Pagerank算法的关键词提取方法
分布语义的最常见表示形式是一维表示,其中维数等于词汇表的基数。 此向量空间表示的元素由0和1组成。 但是,这种表示有一些缺点。 例如,在这些表示中,很难对单词相似度进行推论。 由于尺寸高,它们也可能导致过拟合。 而且,它在计算上是昂贵的。
单词嵌入旨在捕获词汇表项之间的归因相似之处。 在相似的上下文中出现的单词在投影向量空间中应该彼此靠近。 这意味着矢量空间中的单词分组必须共享相同的语义属性。 在单词嵌入中,潜在语义分析(LSA)使用计数基维减少方法。 创建Word2Vec作为替代。 它的低维度可以帮助降低计算复杂度。 与分布语义方法相比,它也减少了过拟合。 Word2Vec还可以检测单词之间的类比。
我们的模型采用向量空间中单词的Word2Vec表示形式。 在构建Word2Vec模型时,我们要确定单词计数的阈值,因为在大型语
2021-11-29 14:22:20
4KB
Python
1