doc2vec
该存储库包含Python脚本,用于使用训练doc2vec模型。
有关doc2vec算法的详细信息,请参见论文。
创建一个DeWiki数据集
Doc2vec是一种无监督的学习算法,并且可以使用任何文档集来训练模型。 文档可以是简短的140个字符的推文,单个段落(如文章摘要,新闻文章或书籍)中的任何内容。
对于德国人来说,一个好的基线是使用训练模型。
下载最新的DeWiki转储:
wget http://download.wikimedia.org/dewiki/latest/dewiki-latest-pages-articles.xml.bz2
提取内容:
wget http://medialab.di.unipi.it/Project/SemaWiki/Tools/WikiExtractor.py
python WikiExtractor.py -c -b 2
1