文本分类语料库(复旦)训练语料,本语料库由复旦大学李荣陆提供,共9804篇文档,两个预料各分为20个相同类别。
2024-06-27 11:46:10 52.26MB 文本分类
1
word2vec入门训练语料,可以用来跑简单的word embedding训练流程,千里之行始于足下。
2024-03-04 14:45:10 60MB word2vec pytorch nlp
1
中文医疗语料数据集下载
2024-03-03 15:58:31 63.43MB 健康医疗 数据集
1
这是GMB语料库的摘录,经过标记,注释和构建,专门用于训练分类器以预测命名实体,例如名称,位置等。 使用GMB(Groningen Meaning Bank)语料库进行命名实体识别的带注释语料库,该语料库通过自然语言处理将具有增强和流行特征的实体分类应用于数据集。
2024-01-03 18:36:44 24.85MB 命名实体识别
1
青云语料库 12万对话语料青云库
2024-01-03 16:51:46 6.78MB nlp
1
整理自搜狗实验室中的新闻分类。含有金融、体育、军事等11个分类集。
2023-11-24 21:13:33 33.86MB 自然语言处理 新闻分类语料
1
========dgk_lost_conv======== chinese conversation corpus 可以用作聊天机器人的训练语料 结果: dgk_shooter_z.conv 110MB 已分词 dgk_shooter_min.conv 按字分词 lost.conv 1.7MB fanzxl.conv 2.3MB fk24.conv 4.5MB haosys.conv 1.3MB juemds.conv 793KB laoyj.conv 1.5MB prisonb.conv 543KB 内部方法: asstosrt -s utf-8 ass ----asstosrt---->srt srt ----cvgen.py---->.conv 特别的shooter73g: 进入shooterwp, 解压缩mirror.x到rawbase下面 执行sel.sh 在跟目录下 fixco
2023-11-09 11:39:30 126.44MB Python
1
这是关于微博情感分析的语料,类别分好,可以直接投入分析程序中使用,方便大家研究情感分类,免去大家写爬虫或API等方式爬取数据的烦恼
2023-09-19 19:27:06 27.15MB 情感分析 微博 语料库
1
搜狗中文语料库搜狗中文语料库搜狗中文语料库搜狗中文语料库搜狗中文语料
2023-09-09 16:21:03 52.77MB NLP
1
共约250w条简体中文语料
2023-04-10 16:43:51 751.82MB 数据集 维基百科 中文语料
1