基于维基中文,截至20210810的所有文章训练的词向量模型
2021-08-12 09:12:47 30.4MB word2vec 中文词库
1
与model配套的资源,否则模型无法使用,因为一次只能上次一个文件所以分开
2021-08-12 09:12:47 561.23MB Word2vec 中文词库
1
这个也是词向量模型配套的
2021-08-12 09:12:46 561.23MB word2vec 中文词库
1
本文设计并实现了一个微博交通内容的热门话题发现及文本聚类系统,便于及时捕获 出微博中的交通话题,有助于更快速准确地对交通事件做出预判和决策。为了能在聚类中更 准确地对文本进行相似度计算,本文采用 word2vec 将词语表示成词向量,并提出了一种基 10 于稠密特征的 DC-word2vec 算法,通过引入高频网络词组成的高维词表对特征向量进行扩维 映射,使其变得稠密化且每一维度都有了具体的实际意义。通过对比其他几类算法的计算相 似度准确率,验证了 DC-word2vec 的效果最佳,并将其应用到 K-means 聚类中,有效提升了 话题聚类的精度。
1
词向量预训练模型,如果官方下载的话需用科学下载方式,所以在此提供便利下载通道,欢迎大家下载。谷歌预训练词向量。
2021-08-11 16:10:05 67B google
1
word2vec词向量训练及中文文本相似度计算。 word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。虽然源码是开源的,但是谷歌的代码库国内无法访问,因此本文的讲解word2vec原理以Github上的word2vec代码为准。本文关注于word2vec的基础知识。
2021-07-25 22:32:13 2.83MB 自然语言处理
1
WiKi百科语料 1G多 已分词 可用于Word2Vec训练 WiKi百科语料 1G多 已分词 可用于Word2Vec训练
2021-07-13 22:17:59 82B wiki 语料 Word2Vec
1
论文中用到的部分基础文本分析技术(包括分词、去除停用词、word2vec、TF-IDF、词云图、名称提取、词性标注、LDA主题模型)
2021-07-08 15:02:47 6MB 分词 去除停用词 word2vec TF-IDF
| | | :party_popper: :party_popper: :party_popper: 我们发布了带有TF2支持的2.0.0版本。 :party_popper: :party_popper: :party_popper: 如果您将此项目用于研究,请引用: @misc{Kashgari author = {Eliyar Eziz}, title = {Kashgari}, year = {2019}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/BrikerMan/Kashgari}} } 总览 Kashgari是一个简单而强大的NLP Transfer学
1
主要介绍了在python下实现word2vec词向量训练与加载实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
2021-07-03 23:59:29 59KB python word2vec 词向量训练 加载
1