自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
2019-12-21 19:54:45 300B 维基 中文语料 word2vec
1
aiml,中文语料库,从别的地方收集的,提供大家学习用
2019-12-21 18:57:48 1.48MB aiml 语料库 中文语料库
1
# 语料库说明 ------------------------------------------------------------------------ ## 词典 1、HowNet 情感词典 2、ntusd 情感词典 3、情感分析停用词表 4、结巴分词自定义词典 5、常用语词典,包括流行新词,网络流行词,手机词汇,粤语,潮语潮词、阿里巴巴-通讯产品词汇等 ## 手机评论数据 1、HTC手机评论,包括打分,共302篇1-5 2、魅族手机评论,包括打分,共529篇1-5 3、诺基亚手机评论,包括打分,共614篇1-5 4、OPPO手机评论,包括打分1-5,共553篇 5、三星手机评论,包括打分1-5,共762篇 6、中兴手机评论,包括打分1-5,共785篇 7、摩托罗拉手机评论,包括打分1-5,共990篇 8、整合:正面评论1084篇,负面评论524篇 ## 淘宝商品评论数据 1、正面评论一万篇,负面评论一万篇 2、待预测的语料一万篇 ## 2012微博情感分析数据 共三个任务,数据集来自腾讯微博,每个话题1,000条,总约两万条微博 1、观点句与非观点句的判别 2、情感分类 3、情感要素抽取 ## 谭松波酒店评论语料 正负样本不平衡,正样本7,000,负样本3000,共10,000. ## 酒店、服装、水果、平板、洗发水 正负样本均5,000,总样本数50,000
2019-12-21 18:57:42 12.81MB 中文语料 情感分析 数据集
1