为 Apache Spark 训练的 Word2Vec
使用 UMBC Webbase 语料库 [1] 作为训练数据,基于 Apache Spark 实用程序训练 Word2Vec 100 维单词相似度向量的简单项目。
目前存在 3 种大小的向量:
XS:在 10% 的网络语料库上训练
S : 在 25% 的网络语料库上训练
M:在 50% 的 webbase 语料库上训练
所使用的预处理可以分为两个不同的组。 对于这两个组,webbase 语料库的一段被视为单个文档
Unstemed 标记化预处理:简单地使用斯坦福核心 NLP 标记器 [2] 来标记给定的文本
词干标记化处理:使用与上述相同的标记化。 但是使用在 apache lucene 中实现的 porter stemmer 来阻止令牌 [3]
此外,还集成了余弦相似度方法以计算两个给定词向量之间的相似度。 用法参见用法部分
2022-03-25 16:44:27
2.93MB
Scala
1