用于生成训练语料,供文本分类器使用。在控制台操作,简单易用
2022-03-26 22:12:59 8KB 文本分类 训练语料
1
FileWriter writer1 new FileWriter "汉字字频统计结果分布 txt" ; writer1 write "汉字总数 "+totalNum+" r n" ; 汉字总个数 writer1 write "汉字种数 "+totalKind+" r n" ; 汉字种类数 writer1 write " r n" ; writer1 write " r n" ; writer1 write "带 的为高频字 r n" ; writer1 write "序号 t汉字 个数 t 字频 字频和 r n" ; 字频 词频统计并可统计汉字信息熵 含语料 100篇 完整">FileWriter writer1 new FileWriter "汉字字频统计结果分布 txt" ; writer1 write "汉字总数 "+totalNum+" r n" ; 汉字总个数 writer1 write "汉字种数 "+totalKind+" r n" ; 汉字种类数 writer1 write " r n [更多]
2022-03-23 07:49:06 90KB 字频 词频统计 含语料
1
微软亚洲研究院中文分词语料库_自然语言处理_科研数据集
2022-03-22 20:48:45 40.82MB 中文分词语料
1
无论是从事算法研究还是语料标注的工程师,需要有最基础的认知:一款可以为自己提效的工具。赛莉开放标注平台可以自动标注、自动查错、短语搜索等功能,基本可以事半功倍。语料是精标数据,符合国标,XML格式含有丰富的标注信息,可以i通过工具转换成其他形式的标注序列。
2022-03-22 14:20:53 11KB 中文语料 语料自动标注 开放工具
1
TIMIT Acoustic Phonetic Continuous Speech Corpus 是一个英语语音识别数据,包括 630人8个不同地区的美国方言录制的音频信息。
2022-03-10 11:34:26 416.07MB 语音识别 音频语料
1
聊天机器人 一个可以使用自己的语言料进行训练的中文聊天机器人,目前包含seq2seq tf1.x和tf.2x版本,seqGan版本为tf1.x版本,pytorch版本,欢迎大家实践交流。 关于语料的说明 大家可以使用小黄鸡的预料,地址 seq2seq版本代码执行顺序 1,在下载好代码和语料之后,将语料文件放入数据目录下。 2,准备数据预处理器(data_utls.py)-> execute.py(执行器)-> app.py(可视化对话模块)的顺序执行就可以了。 3,超参配置在seq2seq.ini和seq2seq_sever.ini文件中配置。 seqGAN版本代码执行顺序 1,在下载好代
2022-03-08 08:30:31 28.28MB python ai chatbot pytorch
1
这是用于分类,聚类的英文文本语料20_newsgroups
2022-02-25 16:39:49 16.53MB 分类
1
拒绝csdn会员白嫖。csdn会员无法贡献积分!!! 实体关系识别和自然语言处理中的ace 2005 语料,非常珍贵. ACE 2005多语种培训语料库包含完整的英语、阿拉伯语和汉语训练数据,用于2005年自动内容 zip格式保证解压。
2022-02-21 09:28:48 3.24MB ace2005 ace
1
哈工大停用词表 川大智能实验室停用词表 中文停用词词表
2022-02-06 14:11:22 9KB python 自然语言处理 开发语言 后端
1
文本分类语料,共9833篇文档;train为训练语料,test为测试语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分;
2022-01-17 14:16:20 105.11MB 复旦 文本分类 语料 文本分类语料
1