已处理过的干净中英平行语料,无乱码空值杂质,其中还夹杂了其他场景的数据,一共30w,新手上手机器翻译时可以拿来练手,测试模型,免去了数据清洗的大量工作
2023-03-08 12:04:39 27.33MB 数据 平行语料 中英
1
这个数据集有两万多条平行语料,适合学习seq2seq或者transformer的时候练习用。里面有统计好的该语料的词典,使用python pickle.load查看
2022-07-22 00:19:08 1.56MB python 学习 transformer 自然语言处理
1
语料来源为WMT18,本资源包含中英文的平行语料50000句,以及简单预处理后的文件。中文预处理:去除标点、数字,分词;英文预处理:去除标点、数字,大小写转换。可以用来做简单的神经机器翻译练习使用。
2022-07-06 19:41:24 7.59MB 机器翻译 神经网络 机器学习
1
如题,三个完整的机器翻译平行语料,免去官网的麻烦申请操作等
2022-04-06 23:59:41 290.22MB 平行语料 casia2015 casict2015
1
平行语料库,用于机器翻译等的预处理语料。 汉英双语语料和德英双语语料,可以用来训练NMT模型,谨供学术实验用
2021-12-17 09:34:34 930KB 平行语料 机器翻译
1
transformer_news:基于transformer的中英文平行语料翻译系统
2021-09-28 17:19:16 25.38MB 系统开源
1
实战数据 有缺失值,乱码等 数据待清洗处理
2021-08-27 09:02:24 78.65MB 平行语料 中英文 机器翻译
1
机器学习-100句中英文平行语料(中译英),内容为金融相关的日常用语-机器学习数据处理必看-数据集.txt
中文英文的平行语料,来源于niutrans语料,总共20万句(中文10万英文10万),该语料可用于机器翻译等的训练。
2021-02-17 15:29:33 7.84MB 机器翻译
1
通过爬得的网页来获取平行网页,java语言开发的,开源
2019-12-21 22:13:53 3.87MB 爬虫
1