中文word2vector词向量实现 说明:背后的原理暂时不做深究, 主要目的就是尽可能快的训练一个中文词向量模型。 环境 笔记本 i5-4210M CPU @ 2.60GHz × 4 , 8G RAM ubuntu16.04lts 独立系统, python 3.6.1 依赖:numpy, scipy, gensim, opencc, jieba 1.获取语料库 1.1维基百科 原始语料文件:zhwiki-latest-pages-articles.xml.bz2 1.6G 1.2 SogouCA 全网新闻数据(SogouCA) 原始语料文件:'news_tensite_xml.full.tar.gz' 746.3 M 2.语料库预处理 2.1 搜狗新闻语料处理 来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息 格式说明:
2022-11-30 15:36:28 345KB 附件源码 文章源码
1
智能审讯 这是一个网络应用程序,可根据症状向用户提供药物建议。 目录介绍 Intelligent-interrogation目录包含有关项目演示的python代码和C ++代码。 数据目录包含训练集和数据库(疾病信息,疾病词典和药物词典)。 调试目录包含一些python代码,用于调试或处理数据(分割单词或调整数据格式)。 spider目录包含用于在线获取信息的网络蜘蛛。 框架是我们项目的思想载体。 项目职能 该项目的主要功能如下: 用结巴来分词 使用TF-IDF提取关键字 使用Word2vec建立模型 使用Levenshtein搜索目标 使用Seq2seq模型 使用LDA模型 使用SQL服务器 使用Django框架 要求 python 3.6 Navicat for SQL服务器 urllib,urllib2,json,pymssql,word2vec,Levenshtein,
2022-03-08 09:50:06 15.31MB python django word2vec python3
1
随着互联网与信息技术的发展,大数据分析成为目前热门话题之 一。大数据分析主要从海量数据中提取有意义的信息作为数据特征, 通过分析已有数据的特征,实现数据的归纳分析,预测数据集的发展 方向。自然语言处理是实现文本信息智能分析的一项重要研究工作。 对特定领域内文本的分析,可以获取该领域内的重要信息,以及实现 对该领域发展方向的预测。 针对财经领域而言,分析财经领域内海量的文本信息,可以了解 经济发展的前景,实现对经济发展的预测。中文文本分析主要是文本 的分类、聚类等工作,依赖于对文本中词汇的分析。从文本词汇集中 提取主要的信息是分析文本的基础工作。关键词是文本数据的重要特 征,是分析文本数据的重
1
中文分词获取和Word2Vec模型构建.zip
2021-11-25 20:06:19 464.92MB NLP 中文分类
1
TX-WORD2VEC 腾讯开源的word2vec模型。 原版15个G,一般爱好者很难玩出来。 所以做了一些小的。方便大家使用。 5000-small.txt 这个有5000词,可以下下来玩玩 45000-small.txt 这个有4.5w的词,已经能解决很多问题了 70000-small.txt 7w词 133MB 100000-small.txt 10w词 190MB 500000-small.txt 50w词 953MB 1000000-small.txt 100w词 1.9GB 2000000-small.txt 200w词 3.8GB 再大就自己去下载吧 如何使用 读取模型 from gensim.models import KeyedVectors model = KeyedVectors.load_word2vec_format("50-small.txt") 把玩模型 m
2021-08-14 21:07:41 36.28MB JupyterNotebook
1
python实现了情感分析的完整项目,包含训练样本,训练好的模型,完整代码。python实现了情感分析的完整项目,包含训练样本,训练好的模型,完整代码。python实现了情感分析的完整项目,包含训练样本,训练好的模型,完整代码。python实现了情感分析的完整项目,包含训练样本,训练好的模型,完整代码。python实现了情感分析的完整项目,包含训练样本,训练好的模型,完整代码。
1
自然语言词汇基础
2021-01-28 16:14:57 17KB 词嵌入 word2vec模型理解
1
通过wiki生成word2vec模型的例子,使用的中文 wiki资料
2020-01-20 03:06:28 1KB 神经网络
1