WiKi百科语料 1G多 已分词 可用于Word2Vec训练 WiKi百科语料 1G多 已分词 可用于Word2Vec训练
2021-07-13 22:17:59 82B wiki 语料 Word2Vec
1
Wiki中文语料2020年版,经过opencc繁简转换,jieba分词,训练出的词向量模型,维度为20。。。。。。。。。。。。。。
2021-07-13 19:58:29 259.9MB wiki中文语料 训练出的bin模型
1
谭松波整理的中文酒店评论语料。数据规模有10000篇,每条评论已经标注好情感方向。适合当作中文情感分析的语料库。
2021-07-09 11:39:40 9.94MB 中文情感分析
1
诗歌在中国是一个极为重要且历史悠久的文学体裁。纵横千年的时间跨度、数量巨大的诗人群体、卷帙浩繁的诗歌文本都使得在传统的文本阅读方式下,中国诗歌的宏观把握变得极其不易。因此,随着计算机算力与计算模型的发展,越来越多的研究者将目光聚焦到了使用计算机对诗歌进行文本分析的研究领域,已有研究者对中国古诗进行了统计建模与宏观分析$^{[1]}$,但所用文本语料多为《全唐诗》《全宋词》等,以《诗经》为语料的文本分析研究,未之有也。因此需要有人在这个方面进行一些探索,本文便是一次尝试, 试图从另一个视角出发,更高效地处理《诗经》文本,并提供文本分析视角下对《诗经》的宏观刻画、描述与阐释。 本文从字频、词频、文本长度、文本方差、情感分析、提取主题词等各个维度,对《诗经》进行了以下文本分析: 首先从单字的角度,对诗经进行了字数、字频、各句长度方差等统计。 经过效果对比,选用北京大学的分词工具Pkuseg,对《诗经》进行分词处理。 在分词基础上统计词频且生成词云。 通过文本长度,文本方差来寻找风雅颂三部分之间的差异。 通过对《诗经》中篇目的情感分析,绘制出风雅颂各部分的情感变化曲线。 提取出文本中的主题词,并以此为基础构建出每篇作品的文本向量。 选定文本长度,文本方差,文本向量作为作品的三个特征,共同组成一个样本来表达一篇作品。 抽取样本,通过计算距离的方式对《诗经》中风雅颂三部分进行聚类,绘制出表达聚类效果的轮廓系数曲线。 以束皙的六首《补亡诗》与陶渊明的四首《时运》为例,计算二者作品与《诗经》的相似程度。
基于谭松波老师的酒店评论数据集的中文文本情感分析,二分类问题 数据集标签有pos和neg,分别2000条txt文本 选择RNN、LSTM和Bi-LSTM作为模型,借助Keras搭建训练 主要工具包版本为TensorFlow 2.0.0、Keras 2.3.1和Python 3.6.2 在测试集上可稳定达到92%的准确率
整合当前可以找到的NER语料集,并把格式统一化,可以直接训练。
2021-07-07 14:20:57 23.04MB NER语料集 NLP 语料集 corpus
1
文档为基于美团、携程、途牛、同城等几个APP上对于海南景区的评价xlsx、sql格式文件,其中包含海南各大景区的评价,内容丰富,适合模型训练、语料归纳、数据分类等训练检测用。下载方便。
2021-07-05 15:01:36 3.48MB 评论数据 海南景区 中文语料 nlp
1
这个链接是训练集,测试集自己去搜有免费的,明明应该是免费的东西,有几个智障非要收钱,然后我才发现,现在csdn不能免费了?最低是2资源竟然? 分享一个免费的链接链接:https://pan.baidu.com/s/1833mT2rhL6gBMlM0KnmyKg 密码:zyxa 要是想打赏下载那个2c币的也行,谢谢老铁 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试各50多兆),下载时请耐心等待。
2021-06-30 10:05:23 56MB 中文文本分类 文本分类语料
1
主要介绍了python gensim使用word2vec词向量处理中文语料的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2021-06-25 14:04:33 184KB python word2vec词向量 python 词向量
1
电商评论中文语料,全中文,分词,60W
2021-06-24 14:17:26 41.71MB 中文语料 分词 电商
1