搭建LSTM网络的情感分类网络,加载预训练的word2vec语言模型参数,在IMDB训练数据集上进行模型训练,获得最优分类模型,并在IMDB测试数据集上进行测试,将训练和测试结果进行可视化展示。
2023-02-07 22:42:17 10KB 自然语言处理 pytorch LSTM word2vec
1
zhwiki-gensim-word2vec The goal of this assignment is to train a Word2Vec using gensim over zhwiki() data and show the result by TSNE. 用Wikipedia的中文数据训练Word2Vec 1 下载数据() 2 解压数据 WikiExtractor 3 数据准备 a. jieba切词 b. 数据清洗、去停用词 c. 繁体化简体 OpenCC 4 用gensim 训练 Word2Vec 5 结果显示 TSNE
2023-02-04 23:32:08 1.02MB JupyterNotebook
1
GeoNamesEmbedding Word2Vec嵌入地名和地理术语。 我最初是在2019年8月创建此地图的,供我共同创建的地理门户GeoGenius使用。 但是,事实证明这对于当前的任务是不安全的,因此从那时起我就再也没有碰过它。 但是它能够创建一些令人印象深刻的嵌入,因此我将其推向了Github。 训练集包含成千上万个地理事实文件和问题,这些问题文件和问题使用Gensim的Word2Vec合成为模型,在我看来,其中一些模型已经建立了一些真正令人印象深刻的联系。 集合中的一些材料是私人的,并且在所有者的允许下使用了这些材料,因此培训材料不会公开提交给此仓库,尽管如果有人希望访问这些材料,请随时与我联系。 所有模型都位于(惊奇)models文件夹中,并且模型分为语料库版本(当前为1-7),每个语料库反映了已添加到训练集中的材料。 最好的模型通常来自最新的语料库版本,当前版本为7。
2022-12-08 16:11:03 112.97MB Python
1
中文word2vector词向量实现 说明:背后的原理暂时不做深究, 主要目的就是尽可能快的训练一个中文词向量模型。 环境 笔记本 i5-4210M CPU @ 2.60GHz × 4 , 8G RAM ubuntu16.04lts 独立系统, python 3.6.1 依赖:numpy, scipy, gensim, opencc, jieba 1.获取语料库 1.1维基百科 原始语料文件:zhwiki-latest-pages-articles.xml.bz2 1.6G 1.2 SogouCA 全网新闻数据(SogouCA) 原始语料文件:'news_tensite_xml.full.tar.gz' 746.3 M 2.语料库预处理 2.1 搜狗新闻语料处理 来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息 格式说明:
2022-11-30 15:36:28 345KB 附件源码 文章源码
1
利用wikipedia语料训练word2vec代码,中英文都可,语料自行下载
2022-11-16 00:13:59 5KB word2vec
1
《Word2vec from theory to practice(Word2vec及其最新应用介绍)》, Hendrik Heuer在Stockholm NLP Meetup上的报告,不少关于Word2vec实践的内容。
2022-11-08 21:20:57 6.24MB Word2vec
1
文本预处理:分词,取出停用词,过滤低频词汇,编码归一化等; 文本向量化:如使用向量空间模型VSM(Vector Space Model)或者概率统计模型对文本进行表示,使计算机能够理解计算,用的方法基于集合论模型。基于代数轮模型。基于频率统计模型等等; 文本特征提取和选择:特征提取对应着特征项的选择和特征权重的计算。
2022-11-06 10:26:20 115KB NLP
1
本资源属于代码类,是一些nlp工具的使用 nlp 工具 word2vec nltk textblob crf++ (1)机器人 (2)中文翻译,及繁体转简体 (3)关键词提取,主题提取,摘要提取 (4)命名体识别 (5)分词 (6)情感分析,正负类分析 (7)近义词,同义词,句子相似性 (8)聚类,监督,无监督 (9)词性标注 (10)词向量提取
2022-11-05 14:56:59 1.49MB nlp 机器学习
1
基于jieba、gensim.word2vec、LogisticRegression的搜狐新闻文本分类-附件资源
2022-09-23 14:39:28 106B
1
Word2Vec和LDA 使用Word2Vec和LDA和Humır数据集进行文本分析(正负)的示例 通常,我们将经历4个主要步骤(我将按照自己的步骤添加这些步骤); 功能控制 特征创建 模型训练 选型 1)功能控制 我们快速探索将要使用的数据集的阶段; 读取数据 提供列名 以5个内容为例 学习行数和列数 学习有关数据集的一般信息(信息,描述) 一些列的内容中有多少个不同的值 分离我们不会在数据集中使用的数据 将数据集分离为训练和测试 在数据集的测试部分中学习信息 在数据集训练部分中学习信息 可视化正面和负面评论的数量 可视化注释中使用的单词的数字分布 评论和包含250个以上单词的评论中使用的最大,最小,平均单词数 浏览带有1、2、3个字的评论 2)特征创建 自然语言处理中通常的方法是先清除文本。 当两个不同的词表达相似的事物时,我们必须确保我们的模型理解相似性。 我
2022-09-04 21:55:16 254KB Python
1