项目中要对短文本进行相似度估计,word2vec是一个很火的工具。本文就word2vec的训练以及加载进行了总结。
word2vec的原理就不描述了,word2vec词向量工具是由google开发的,输入为文本文档,输出为基于这个文本文档的语料库训练得到的词向量模型。
通过该模型可以对单词的相似度进行量化分析。
word2vec的训练方法有2种,一种是通过word2vec的官方手段,在linux环境下编译并执行。
在github上下载word2vec的安装包,然后make编译。查看demo-word.sh脚本,得到word2vec的执行命令:
./word2vec -train text8
2023-05-16 14:28:32
60KB
c
ec
OR
1