NiuTrans的开源中英平行语料库,可以用来训练机器翻译。
2021-06-29 16:11:17 45.53MB 平行语料库
1
NiuTrans的开源中英平行语料库,可以用来训练机器翻译。
2021-05-12 12:03:17 45.53MB 平行语料库
1
NiuTrans的开源中英平行语料库,可以用来训练机器翻译。
2019-12-21 22:19:27 45.53MB 平行语料库
1
NiuTrans的开源中英平行语料库,可以用来训练机器翻译。
2019-12-21 22:13:20 45.53MB 平行语料库
1
共8400多对中英语句,已预处理,中文用jieba分了词,标点符号没问题,保存于en-zh.csv,分隔符是制表符\t(不是默认逗号)。 句粒度,但有不少长句,裁剪后5w对也够用。 原始数据集也在包中,其中en-zh_News.tmx有一部分句子有问题,(en-zh.csv丢弃了有问题的句子),如果必要建议不要直接使用该文件。 另外附赠我对语料的预处理文件(propressor.py),以及数据集(pytorch的Dataset)等相关的实现(LangData.py)。 如果又可以改善的地方,欢迎留言
2019-12-21 21:44:28 35.14MB 中英平行语料库 语料
1
NiuTrans的开源中英平行语料库,可以用来训练机器翻译。
2019-12-21 21:42:47 45.53MB 平行语料库
1
NiuTrans的开源中英平行语料库,可以用来训练机器翻译。
2019-12-21 21:01:34 45.53MB 平行语料库
1
网上搜集的一些中英平行语料库,包括两部电影(约300k),白皮书(约8M),政治新闻(约2M)。送给和我一样正需要语料库的你。(如果有需要,可以和我交流)
2019-12-21 20:13:54 3.52MB 语料库 中英 平行语料库
1
平行语料库,用于机器翻译等大数据处理,有需要的可以下来用,可以直接用,不用全角半角变换
2019-12-21 18:55:15 859KB 语料库
1
NiuTrans的开源中英平行语料库,可以用来训练机器翻译。
2019-12-21 18:51:38 45.51MB 语料库 中英 平行语料库
1