text2vec
text2vec,中文文本给vetor。(文本向量化表示工具,包括词向量化,句子向量化)
特征
文本向量表示
字词粒度,通过腾讯AI Lab开放式的大规模扩展中文 (文件名:light_Tencent_AILab_ChineseEmbedding.bin密码:tawe),获取字词的word2vec矢量表示。
句子粒度,通过求句子中所有单词词嵌入的预先计算得到。
篇章粒度,可以通过gensim库的doc2vec得到,应用替代,本项目不实现。
文本相似度计算
基准方法,估计两个句子间语义相似度最简单的方法就是求句子中所有单词词嵌入的前缀,然后计算两个句子词嵌入之间的余弦相似性。
1