感觉改造 使用此工具将任何词向量模型改造为语义本体,以导出特定于语义的向量。 由此产生的模型不仅捕捉到了语义差异,而且在几个语义任务上通常在经验上更好。 该技术的详细信息可以在 Jauhar 等人中找到。 阿尔。 (2015)。 要求 Python 2.7 一种。 麻木的湾scipy 数据 词向量 包含预训练词向量模型的文件。 第一行必须指定向量空间模型的维度,之后每行给出一个词向量。 有关示例,请参见data/samplevec.txt.gz 。 输出词向量的格式完全相同。 对于两者,纯文本和 gzip 文件都是可以接受的。 感觉本体 包含感觉本体的局部邻域描述的文件。 同样,gzip 和纯文本文件都是可以接受的。 每行指定一个词义及其所有具有权重的邻居。 一行的一般格式是: <
2021-12-14 11:16:22 17.49MB Python
1
glove_300d 词向量
2021-12-13 19:23:14 989.88MB 词向量
1
lda2vec Moody的lda2vec的pytorch实现,这是一种使用词嵌入的主题建模方法。 原始论文: 。 警告:我个人认为使lda2vec算法起作用非常困难。 有时它找到几个主题,有时却找不到。 通常,找到的很多话题都是一团糟。 该算法易于产生较差的局部最小值。 它在很大程度上取决于初始主题分配的值。 对于我的结果,请参阅20newsgroups/explore_trained_model.ipynb 。 另请参见下面的实现详细信息。 失利 培训进行如下。 首先,将文档语料库转换为一组元组{(document id, word, the window around the word) | for each word in the corpus} {(document id, word, the window around the word) | for each word
2021-12-13 14:45:07 1.68MB pytorch topic-modeling word-vectors JupyterNotebook
1
用word2vec的方法做词向量...........................................................................................................................
2021-12-10 12:49:44 2KB word2vec
1
为提高大规模恶意代码分类任务的分类准确率,提出基于词向量的恶意代码分类模型,引入NLP中表达语义含义的词向量概念,提取恶意代码函数语义特征,使用textCNN神经网络对其进行分类。实验结果表明,该模型在微软公司提供的BIG2015恶意代码分类比赛的训练集上能实现98.78%的预测准确率,相较几种传统方法准确率分别提高0.91%~3.16%。
2021-12-04 10:30:29 1.7MB 恶意代码; 分类; 词向量; CNN
1
使用gensim对维基百科作为预训练语料(约1.6G语料),生成词汇量约13000个词汇,维度为300,文件大小为45.6MB。使用方法,参考博客:https://blog.csdn.net/qq_36426650/article/details/87738919
2021-11-30 14:55:25 32.97MB NLP word2vec中文词向量 自然语言处理
1
NLP民工的乐园 最强大的NLP武器库 NLP民工的乐园:几乎最全的中文NLP资源库 词库 工具包 学习资料 在入门到熟悉NLP的过程中,用到了很多github上的包,遂整理了一下,分享在这里。 很多包非常有趣,值得收藏,满足大家的收集癖!如果觉得有用,请分享并star,谢谢! 长期不定时更新,欢迎手表和叉子! 涉及内容包括但不限于:中英文敏感词,语言检测,中外手机/电话归属​​地/运营商查询,名字,名称,性别,手机号撤回,身份证删除,邮箱删除,中日文人名库,中文缩写库,拆字字典,词汇情感值,替换词,反动词表,暴恐词表,繁简体转换,英文模拟中文最佳,汪峰歌词生成器,职业名称词库,词典库,反义词库,否定词库,汽车品牌词库,汽车零件词库,连续英语切割,各种中文词向量,公司名称大全,古诗词库,IT词库,财经词库,成语词库,地名库,历史名人词库,诗词词库,医学词库,饮食词库,法律词库,汽车词库,动
2021-11-25 15:48:32 69.21MB Python
1
著名的fasttext词向量,上Billion个词,每个词N维,可用于深度模型初始化,BERT之后仍有其价值
2021-11-23 12:45:55 760.15MB NLP
1
这是keras建立对话机器人的词向量,不局限于机器人对话,也可以做其他开发使用,可以将词转化为向量。大家可以参考,开发自己的各种模型。
2021-11-11 20:38:05 121.88MB 词向量
1
word2vec介绍 word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。 它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。 word2vec计算的是余弦值,距离范围为0-1之间,值越大代表两个词关联度越高。 词向量:用Distributed Representation表示词,通常也被称为“Word Representation”或“Word Embedding
2021-11-11 17:13:13 184KB c ec gensim
1