新闻文本数据挖掘案例——基于词向量化得数据挖掘
2021-11-10 18:07:18 420KB 数据挖掘 TfidfVectorizer CountVectorizer
著名的glove词向量,上Billion个词,每个词N维,可用于深度模型初始化,BERT之后仍有其价值
2021-11-02 19:49:43 1.89GB NLP
1
此模型既可以用于训练词向量,也可以将句子表示成句子向量,质量都比较高
1
基于中文对话文本使用Word2Vec进行训练得到的词向量
2021-10-25 12:23:41 10.83MB python word2vec 词向量
1
这篇文章内容的代码及数据集https://blog.csdn.net/laojie4124/article/details/102915141
2021-10-13 21:08:03 145.85MB 词向量 TensorFlow word2vec
1
中文医学NLP公开资源整理:术语集/语料库/词向量/预训练模型/知识图谱/命名实体识别/QA/信息抽取/模型/论文/etc
2021-10-07 19:28:26 4KB 自然语言处理
1
自然语言处理中知识表示学习的几个四个ppt,学界大牛。
2021-10-06 20:31:49 11.86MB 自然语言处理 知识表示 词向量
1
100 Chinese Word Vectors 上百种预训练中文词向量
2021-09-29 16:21:15 347KB Python开发-自然语言处理
1
SIF:一种简单但是有效的词向量计算余弦相似度的方法,利用了tfidf等知识。
2021-09-26 11:23:32 318KB Word2vec nlp 语义相似度 tfidf
1
text2vec text2vec,中文文本给vetor。(文本向量化表示工具,包括词向量化,句子向量化) 特征 文本向量表示 字词粒度,通过腾讯AI Lab开放式的大规模扩展中文 (文件名:light_Tencent_AILab_ChineseEmbedding.bin密码:tawe),获取字词的word2vec矢量表示。 句子粒度,通过求句子中所有单词词嵌入的预先计算得到。 篇章粒度,可以通过gensim库的doc2vec得到,应用替代,本项目不实现。 文本相似度计算 基准方法,估计两个句子间语义相似度最简单的方法就是求句子中所有单词词嵌入的前缀,然后计算两个句子词嵌入之间的余弦相似性。
2021-09-25 10:16:25 141KB nlp word2vec text-similarity similarity
1