自定义中文语料,约2千万条数据,用于训练kenlm模型,使用地址:https://github.com/yeyupiaoling/PPASR/blob/develop/docs/beam_search.md#%E8%AE%AD%E7%BB%83%E8%87%AA%E5%B7%B1%E7%9A%84%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B
2022-11-17 19:27:15 287.19MB 中文语料 kenlm 语言模型
利用wikipedia语料训练word2vec代码,中英文都可,语料自行下载
2022-11-16 00:13:59 5KB word2vec
1
本项目是基于上海大学语义智能实验室刘宗田教授、刘炜研究员及各硕士博士研究生所共同构建的中文突发事件语料库CEC-(Chinese Emergency Corpus),针对已标注的语料库中,采用LTP进行分词、词性标注、命名实体识别与依存句法分析等;对事件的要素进行规则挖掘,包括词性规则、命名实体规则、依存关系规则等。进而实现对突发事件类新闻报道的生语料进行自动化标注,添加对应的标签,并进行格式校验,存储为XML文件等。 开发环境(测试环境为Windows,不保证支持Unix/Linux环境) Licence:Apache Licence Version2 Version:1.0.0 项目编码设定:UTF-8 开发工具:Eclipse 4.4 luna 操作系统OS:Windows7 64bit JDK version:Oracle JDK 1.8+ 64bit 日志:log4j2.0 单元
2022-11-04 21:14:59 7.67MB Java
1
复旦大学分词语料
2022-11-02 15:12:21 50.38MB 分词 语料
1
PKU-Chinese-Paraphrase-Corpus 中译名著多译本翻译转述语料语料仅限于用于科研教学活动。文本著作权归原著者。
2022-08-25 14:20:11 3.03MB
1
这个数据集有两万多条平行语料,适合学习seq2seq或者transformer的时候练习用。里面有统计好的该语料的词典,使用python pickle.load查看
2022-07-22 00:19:08 1.56MB python 学习 transformer 自然语言处理
1
中文文本分类语料-测试集下载 是测试集,训练集请见我的资源 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。
2022-07-21 10:16:29 52.72MB 大数据 文本分析 文本训练 机器学习
1
语料来源为WMT18,本资源包含中英文的平行语料50000句,以及简单预处理后的文件。中文预处理:去除标点、数字,分词;英文预处理:去除标点、数字,大小写转换。可以用来做简单的神经机器翻译练习使用。
2022-07-06 19:41:24 7.59MB 机器翻译 神经网络 机器学习
1
500万微博语料.7z
2022-06-17 16:03:55 408.3MB 数据集
人民日报的1998年1月份的标注过的语料
2022-06-01 08:47:04 2.12MB 人民日报 语料
1