TED平行语料库是多语言平行语料库,包括多语言并行语料库和单语语料库。从TED会议www.ted.com 提取109种世界语言。 多语言的平行语料库包括 12 种语言超过1.2亿 个对齐句子并进行了句子对齐。 所有的预处理都是自动完成。
2023-04-13 20:23:17 365.48MB 自然语言理解 NLP 机器翻译
1
用于机器翻译的 RNN 编码器解码器 介绍 在基于短语的机器翻译中,通常使用无监督对齐方法提取短语对。 这些本质上通常是生成性的对齐方法无法结合关于语言完整性和短语对质量的其他度量的信息。 因此,提取的短语对通常相当嘈杂。 在不偏离常规短语提取程序的情况下使用这些短语对的一种方法是为每个短语对使用附加特征,然后使用判别训练学习这些特征的权重,其目标是区分好假设和坏假设。 随着最近在机器翻译中使用神经网络,我们有能力将可变长度的句子表示为固定大小的向量表示。 这种表示可以基于我们认为有用的任何质量度量来创建。 一旦我们根据语言的某些属性(语法、语义)获得句子/短语的向量表示,就相对容易问自己一个短语对有多好。 该项目建立在这项工作和其他神经机器翻译工作的基础上,以估计短语对的短语相似度。 评估将通过将此指标用作基于短语的翻译和短语表修剪中的另一个特征来进行。 短语相似度 使用无监督对齐进行短
2023-04-13 10:11:37 1.16MB Python
1
本项目实现了一套快速有效的语音中英翻译系统,该系统可实现高精度的语音识别、高效双语翻译以及精准的语音合成,可应用于实时翻译场景。系统预先要求用户设置翻译模式,当用户说话时系统进行自动识别及实时翻译,最终,输出语音翻译结果。 该系统提供实时翻译,便于携带。在得到准确高效翻译的同时也节省了人工翻译的成本,无需文字写入读取语音即 可翻译,实现了市场翻译软件的低成本,同时为用户提供多样性的体验模式 本项目调用了百度翻译接口,实现高精度 的语音识别、高效双语翻译以及精准的语音合成。 功能 1.中文→英文实时语音文字翻译 2.英文→中文实时语音文字翻译
1
Stanford Phrasal是使用Java编写的基于统计短语的最先进的机器翻译系统。 从本质上讲,它提供了与Moses核心几乎相同的功能。 独特的功能包括:提供易于使用的API来实现新的解码模型功能,使用包含间隙的短语进行翻译的能力(Galley等人,2010年)以及短语表和词法重排模型的条件提取。 由斯坦福大学自然语言处理小组开发的一个团队,由教职人员,博士后,程序员和学生组成,他们共同研究允许计算机处理和理解人类语言的算法。 我们的工作范围从计算语言学的基础研究到人类语言技术的关键应用,涵盖诸如句子理解,自动问题解答,机器翻译,句法分析和标记,情感分析等领域。
2023-03-20 18:13:17 51.83MB 开源软件
1
European Parliament Proceedings Parallel Corpus 1996-2011 数据集是一个用于统计 机器翻译 的语料库,其中 Europarl 平行语料库来源于欧洲议会的程序,它包括 21 种欧洲语言版本: 罗马语(法语,意大利语,西班牙语,葡萄牙语,罗马尼亚语) 日耳曼语(英语,荷兰语,德语,丹麦语,瑞典语) Slavik(保加利亚语,捷克语,波兰语,斯洛伐克语,斯洛文尼亚语) Finni-Ugric(芬兰语,匈牙利语,爱沙尼亚语) 波罗的海语(拉脱维亚语,立陶宛语) 希腊语 European Parliament Proceedings Parallel Corpus 1996-2011 数据集最初由苏格兰爱丁堡大学信息学院于 2005 年发布,主要发布人为 Philipp Koehn。 该数据集于 2012 年发布第 7 版,相关论文有《Europarl: A Parallel Corpus for Statistical Machine Translation》
2023-03-16 22:52:05 39KB 机器翻译语料库
1
THUMT:神经机器翻译的开源工具包 内容 介绍 机器翻译是一种自然语言处理任务,旨在自动使用计算机翻译自然语言。 最近几年见证了端到端神经机器翻译的飞速发展,这已成为实际MT系统中的新主流方法。 THUMT是由开发的用于神经机器翻译的开源工具包。 THUMT的网站是: ://thumt.thunlp.org/。 在线演示 THUMT的在线演示可从。 涉及的语言包括古代汉语,阿拉伯语,中文,英语,法语,德语,印尼语,日语,葡萄牙语,俄语和西班牙语。 实作 THUMT当前具有三个主要实现: :与开发的新实现。 它实现了Transformer模型( Transformer )( )。
1
自然语言处理——刘洋1、判断题(每题1分,共10道)基本都是一些概念,比如汉语是不是曲折语,知识图谱的节点和边表示什么之类的2、选择题(每题2分,共5道)(1)
2023-01-06 04:00:11 21KB 自然语言处理 知识图谱 机器翻译 cnn
1
机器翻译代码实战机器翻译代码实战
2022-12-27 19:26:18 5KB 人工智能
1
这个汉英机器翻译软件来自中科院计算所和北大计算语言所大约于2000年合作完成的汉英机器翻译系统
2022-12-26 22:55:21 113.25MB C/C 开发-机器学习
1
OpenNMT-py:开源神经机器翻译这是OpenNMT(一种开源(MIT)神经机器翻译系统)的Pytorch端口。 它的设计宗旨是便于研究,以便尝试翻译,摘要,OpenNMT-py中的新思想:开源神经机器翻译这是开源(MIT)神经机器翻译系统OpenNMT的PyTorch端口。 它旨在便于研究,以尝试在翻译,摘要,图像到文本,形态学和许多其他领域中的新思想。 一些公司已经证明该代码已可以投入生产。 我们热爱贡献。 请在“问题”页面上查阅“ Contributions Welcome”标记的帖子。 提出问题之前,请确保您已阅读要求a
2022-12-26 21:57:29 77.91MB Python Deep Learning
1