doc2vec 该存储库包含Python脚本,用于使用训练doc2vec模型。 有关doc2vec算法的详细信息,请参见论文。 创建一个DeWiki数据集 Doc2vec是一种无监督的学习算法,并且可以使用任何文档集来训练模型。 文档可以是简短的140个字符的推文,单个段落(如文章摘要,新闻文章或书籍)中的任何内容。 对于德国人来说,一个好的基线是使用训练模型。 下载最新的DeWiki转储: wget http://download.wikimedia.org/dewiki/latest/dewiki-latest-pages-articles.xml.bz2 提取内容: wget http://medialab.di.unipi.it/Project/SemaWiki/Tools/WikiExtractor.py python WikiExtractor.py -c -b 2
2023-02-22 15:58:08 199KB nlp machine-learning word2vec doc2vec
1
主要用于文本的量化处理,非常适合计算文本的相似度以及文本分类,相比于tf-idf更优。
2022-02-25 20:53:35 2KB doc2vec
1
相似度计算,句向量,人工智能,文本抽取,深度学习,
2022-02-14 23:07:29 45KB 自然语言处理
1
doc2vec word2vec / doc2vec 教程和复习
2021-10-23 14:38:22 766KB CSS
1
Doc2Vec文本分类 文本分类模型,该模型使用gensim Doc2Vec生成段落嵌入,并使用scikit-learn Logistic回归进行分类。 数据集 25,000个IMDB电影评论,特别选择用于情感分析。 评论的情绪是二进制的(1表示肯定,0表示否定)。 与以下出版物相关联地收集了此源数据集: Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. (2011). "Learning Word Vectors for Sentiment An
1
该存储库包含一些 python 脚本,用于使用段落向量或 doc2vec 训练和推断测试文档向量。 要求 Python2:预训练的模型和脚本都只支持 Python2。 Gensim:最好使用我的的 gensim; 最新的 gensim 稍微改变了它的 Doc2Vec 方法,因此不会加载预先训练的模型。 预训练的 Doc2Vec 模型 预训练的 Word2Vec 模型 为了重现性,我们还在维基百科和美联社新闻上发布了预训练的 word2vec skip-gram 模型: 目录结构和文件 train_model.py:用于训练一些玩具数据的示例 Python 脚本 infer_test.py:使用训练模型推断测试文档向量的示例 Python 脚本 toy_data:包含一些玩具训练/测试文档和预训练词嵌入的目录 模型超参数说明 sample :这是对频繁词进行下采样的子采样阈值; 1
2021-08-04 14:05:39 1.21MB Python
1
采用多种方法(LSA,TFIDF,Doc2Vec)建立新闻搜索系统,每个搭建一个模型,内含数据跟训练调用方法。
2021-06-23 11:03:59 533.87MB Doc2Vec LSA tf-idf 新闻系统
DOC2vec,是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。
2019-12-21 21:02:32 39.11MB DOC2VEC
1