word2vec-gensim-wiki-中文
使用Wiki英语数据集训练您自己的word2vec嵌入
您可能需要预先训练的word2vec向量,并且此可能对您来说是个好主意。 但是,棘手的是使用Wiki-english数据集没有预先训练的向量。 更棘手的是,尽管给定的用法代码虽然适用于text8数据集,但无法在wiki-english-20171001数据集上训练矢量。
我们已经对其进行了多次测试,最可能的原因是wiki-english-20171001的数据结构与其余数据略有不同。 它包含许多部分,而不仅仅是标记化的句子。
为了得到它的工作,我们指的是IterableWrapper本提供,并将其应用在维基英文数据集。
用法
要查看进度如何,最好像这样配置日志记录
import logging
logging . basicConfig ( format = '%(asctime)s
2022-03-20 21:50:16
3KB
Python
1