无论是从事算法研究还是语料标注的工程师,需要有最基础的认知:一款可以为自己提效的工具。赛莉开放标注平台可以自动标注、自动查错、短语搜索等功能,基本可以事半功倍。语料是精标数据,符合国标,XML格式含有丰富的标注信息,可以i通过工具转换成其他形式的标注序列。
2022-03-22 14:20:53 11KB 中文语料 语料自动标注 开放工具
1
TIMIT Acoustic Phonetic Continuous Speech Corpus 是一个英语语音识别数据,包括 630人8个不同地区的美国方言录制的音频信息。
2022-03-10 11:34:26 416.07MB 语音识别 音频语料
1
聊天机器人 一个可以使用自己的语言料进行训练的中文聊天机器人,目前包含seq2seq tf1.x和tf.2x版本,seqGan版本为tf1.x版本,pytorch版本,欢迎大家实践交流。 关于语料的说明 大家可以使用小黄鸡的预料,地址 seq2seq版本代码执行顺序 1,在下载好代码和语料之后,将语料文件放入数据目录下。 2,准备数据预处理器(data_utls.py)-> execute.py(执行器)-> app.py(可视化对话模块)的顺序执行就可以了。 3,超参配置在seq2seq.ini和seq2seq_sever.ini文件中配置。 seqGAN版本代码执行顺序 1,在下载好代
2022-03-08 08:30:31 28.28MB python ai chatbot pytorch
1
这是用于分类,聚类的英文文本语料20_newsgroups
2022-02-25 16:39:49 16.53MB 分类
1
拒绝csdn会员白嫖。csdn会员无法贡献积分!!! 实体关系识别和自然语言处理中的ace 2005 语料,非常珍贵. ACE 2005多语种培训语料库包含完整的英语、阿拉伯语和汉语训练数据,用于2005年自动内容 zip格式保证解压。
2022-02-21 09:28:48 3.24MB ace2005 ace
1
哈工大停用词表 川大智能实验室停用词表 中文停用词词表
2022-02-06 14:11:22 9KB python 自然语言处理 开发语言 后端
1
文本分类语料,共9833篇文档;train为训练语料,test为测试语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分;
2022-01-17 14:16:20 105.11MB 复旦 文本分类 语料 文本分类语料
1
WikiExtractor.py 中文维基语料训练获取工具之一
1
文本分类 @作者:明亮的安静@Email:sina dot com的brighthush 英文自述文件 项目介绍 这是一个用于中文文本分类的python项目。 我完成了这个项目作为自然语言理解课程的家庭作业。 在这个实验中,我使用了搜狗-文本-分类开放语料库。 我使用 TF/IDF 和信息增益作为特征提取算法。 由于我很懒,所以只实现了两个简单的分类算法,它们是 K-Nearest-Neighbour 和朴素贝叶斯分类。 在提取文本特征时,我们总是需要将句子分割成单词。 我用jieba做分词。 你也可以从获取这个模块。 代码中的命名约定 modeule_name, package_name, method_name, function_name, instance_var_name, function_parameter_name, local_var_name globa_var_n
2021-12-29 16:28:12 12KB Python
1
2014年的人民日报数据,总共有28万行,可直接做词性标注训练使用,处理后也可以做实体识别模型训练用。
2021-12-27 19:55:45 124.07MB nlp 词性标注 NER 命名实体识别
1