text2vec text2vec,中文文本给vetor。(文本向量化表示工具,包括词向量化,句子向量化) 特征 文本向量表示 字词粒度,通过腾讯AI Lab开放式的大规模扩展中文 (文件名:light_Tencent_AILab_ChineseEmbedding.bin密码:tawe),获取字词的word2vec矢量表示。 句子粒度,通过求句子中所有单词词嵌入的预先计算得到。 篇章粒度,可以通过gensim库的doc2vec得到,应用替代,本项目不实现。 文本相似度计算 基准方法,估计两个句子间语义相似度最简单的方法就是求句子中所有单词词嵌入的前缀,然后计算两个句子词嵌入之间的余弦相似性。
2021-09-25 10:16:25 141KB nlp word2vec text-similarity similarity
1
sgns.sogounews.bigram-char sgns.sogounews.bigram-char
2021-09-21 18:25:56 996.5MB 词向量
1
使用GWE(中文字形特征提取)预训练词向量(1.6GB维基百科语料),维度为300,词汇量约13000,文件大小为41.2MB
2021-09-13 09:25:42 56.93MB 自然语言处理 预训练词向量
1
sgns.sogounews.bigram-char.pt sgns.sogounews.bigram-char.pt
2021-08-30 20:18:24 427.91MB 词向量
1
根据已经训练好的word2vec词向量,对于文本相似度进行相关分析
2021-08-29 21:43:43 6KB lstm cnn keras
1
生成词向量的神经网络模型分为两种,一种是像word2vec,这类模型的目的就是生成词向量,另一种是将词向量作为副产品产生,两者的区别在于计算量不同。若词表非常庞大,用深层结构的模型训练词向量需要许多计算资源。
2021-08-27 18:07:09 31.79MB 人工智能 nlp 深度学习
1
预先训练的单词向量。 维基百科2014 + Gigaword 5(6B令牌,400K词汇,无章,50d,100d,200d和300d载体):glove.6B.zip
2021-08-19 23:37:54 194.06MB glove 斯坦福glove 词向量
1
word2vec中的数学原理详解,pdf高清版,学习Word2Vec最好的材料,Word2Vec看这个就够了。
2021-08-19 22:19:22 8.64MB word2vec 词向量 cbow skip-gram
1
基于词向量和增量聚类的短文本聚类算法.pdf
2021-08-19 09:22:07 2.43MB 聚类 算法 数据结构 参考文献