该存储库包含一些 python 脚本,用于使用段落向量或 doc2vec 训练和推断测试文档向量。
要求
Python2:预训练的模型和脚本都只支持 Python2。
Gensim:最好使用我的的 gensim; 最新的 gensim 稍微改变了它的 Doc2Vec 方法,因此不会加载预先训练的模型。
预训练的 Doc2Vec 模型
预训练的 Word2Vec 模型
为了重现性,我们还在维基百科和美联社新闻上发布了预训练的 word2vec skip-gram 模型:
目录结构和文件
train_model.py:用于训练一些玩具数据的示例 Python 脚本
infer_test.py:使用训练模型推断测试文档向量的示例 Python 脚本
toy_data:包含一些玩具训练/测试文档和预训练词嵌入的目录
模型超参数说明
sample :这是对频繁词进行下采样的子采样阈值; 1
2021-08-04 14:05:39
1.21MB
Python
1