微软亚研的中文分词、词性标注和命名实体识别语料,包括训练和验证集,xml格式,方便使用,机器学习、信息检索以及NLP领域的研究人员使用来训练模型
1
自己梳理的7大行业,共660条资讯: 公共管理社会保障 住宿和餐饮业 文化体育和娱乐业 建筑业 交通、仓储和邮政业 批发和零售业 信息传输、软件和信息技术服务业
2021-12-24 17:09:22 1.35MB 机器学习 人工智能 NLP 情感分类
自己整理的机器学习文本训练语料集(多个行业,共2564条,正面资讯)
2021-12-24 17:09:21 4.91MB 机器学习 人工智能 NLP 情感分类
语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。(使用时尽量注明来源(复旦大学计算机信息与技术系国)
2021-12-24 15:11:46 52.33MB 文本分类 语料
1
做自然语言处理时需要语料来做训练集,利用这个爬虫程序可以很方便的获取语料
2021-12-23 20:51:32 988B 语料爬虫
1
谭松波--酒店评论语料.rar
2021-12-22 18:05:02 9.88MB
1
它是谭泽东先生整理的关于酒店评论,图书评论和笔记本评论的带有情感标注的语料,其中每一种类型又有褒义和贬义个两个,每一个大约有2000条语料
2021-12-21 16:08:38 6.07MB 情感分析
1
Customer_satisfaction_Analysis 结果整合 Demo 演示 基于用户 UGC 的在线民宿满意度挖掘,负责数据采集、主题抽取、情感分析等任务。开发的目的是克服用户打分和评论不一致,实现了在线评论采集和用户满意度分析。 主要功能包括在线原始评论采集、主题聚类、评论情感分析与结果可视化展示等四个模块,如下所示。 提取后的民宿地址和在线评论等信息如下。 搭建了百度地图 POI 查询入口,可以进行自动化的批量查询地理信息。 通过高频词可视化展示,归纳出评论主题。 构建了基于在线民宿语料的 LDA 自动化主题聚类模型,利用主题中心词能找出对应的主题属性字典,并使用用户打分作为标注,然后通过多种分类模型,选用最优模型对提出的评价主体 进行情感分析,针对主题属性表进行主题提取后的文本进行情感分析,分别得出当前主题对应的情感趋势,横坐标为所有关于主题为“环境”的情感得分,纵坐标为
1
An implement of the paper of EDA for Chinese corpus.中文语料的EDA数据增强工具。NLP数据增强。论文阅读笔记。
2021-12-20 16:15:02 21KB 机器学习
1
现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312,本资源除了原始编码格式,还具有UTF-8编码格式。 本资源还包含将所有语料分成pos.txt和neg.txt两个文件,每个文件中的一行代表原始数据的一个txt文件,即一篇评论
2021-12-20 11:31:08 9.89MB 酒店评论语料
1