OpenNMT 是一个由 Harvard NLP (哈佛大学自然语言处理研究组) 开源的 Torch 神经网络机器翻译系统。OpenNMT 系统设计简单易用,易于扩展,同时保持效率和最先进的翻译精确度。特性:简单的通用接口,只需要源/目标文件。快速高性能GPU训练和内存优化。提高翻译性能的最新的研究成果。可配对多种语言的预训练模型(即将推出)。允许其他序列生成任务的拓展,如汇总和图文生成。快速开始:OpenNMT 包含三个命令1) 数据预处理th preprocess.lua -train_src data/src-train.txt -train_tgt data/tgt-train.txt -valid_src data/src-val.txt -valid_tgt data/tgt-val.txt -save_data data/demo2) 模型训练th train.lua -data data/demo-train.t7 -save_model model3) 语句翻译th translate.lua -model model_final.t7 -src data/src-test.txt -output pred.txt 标签:OpenNMT
2024-04-12 14:25:16 4.64MB 开源项目
1
nlp之中机器翻译的最新论文的代码复现nlp-master.zip
2024-04-10 17:22:12 17.98MB 自然语言处理 机器翻译 毕业设计
1
基于transformer的机器翻译
2024-04-08 17:02:16 204.93MB transformer 机器翻译
1
K2301D_MT_S112210.20210625.134334 update.zip
2024-02-25 23:57:25 899.57MB 机器翻译
1
使用谷歌翻译js实现页面自动翻译,可设置默认语言,可以自定义翻译方式交互,脚本经过测试可用,实现修改简单,无太多耦合,嵌入代码简单,注意:由于已知原因,谷歌只支持外网访问,项目需要引入jq,其他都不需要第三方,无key,本地部署
2023-07-05 11:21:36 339KB 机器翻译 javascript 软件/插件
1
TED平行语料库是多语言平行语料库,包括多语言并行语料库和单语语料库。从TED会议www.ted.com 提取109种世界语言。 多语言的平行语料库包括 12 种语言超过1.2亿 个对齐句子并进行了句子对齐。 所有的预处理都是自动完成。
2023-04-13 20:23:17 365.48MB 自然语言理解 NLP 机器翻译
1
用于机器翻译的 RNN 编码器解码器 介绍 在基于短语的机器翻译中,通常使用无监督对齐方法提取短语对。 这些本质上通常是生成性的对齐方法无法结合关于语言完整性和短语对质量的其他度量的信息。 因此,提取的短语对通常相当嘈杂。 在不偏离常规短语提取程序的情况下使用这些短语对的一种方法是为每个短语对使用附加特征,然后使用判别训练学习这些特征的权重,其目标是区分好假设和坏假设。 随着最近在机器翻译中使用神经网络,我们有能力将可变长度的句子表示为固定大小的向量表示。 这种表示可以基于我们认为有用的任何质量度量来创建。 一旦我们根据语言的某些属性(语法、语义)获得句子/短语的向量表示,就相对容易问自己一个短语对有多好。 该项目建立在这项工作和其他神经机器翻译工作的基础上,以估计短语对的短语相似度。 评估将通过将此指标用作基于短语的翻译和短语表修剪中的另一个特征来进行。 短语相似度 使用无监督对齐进行短
2023-04-13 10:11:37 1.16MB Python
1
本项目实现了一套快速有效的语音中英翻译系统,该系统可实现高精度的语音识别、高效双语翻译以及精准的语音合成,可应用于实时翻译场景。系统预先要求用户设置翻译模式,当用户说话时系统进行自动识别及实时翻译,最终,输出语音翻译结果。 该系统提供实时翻译,便于携带。在得到准确高效翻译的同时也节省了人工翻译的成本,无需文字写入读取语音即 可翻译,实现了市场翻译软件的低成本,同时为用户提供多样性的体验模式 本项目调用了百度翻译接口,实现高精度 的语音识别、高效双语翻译以及精准的语音合成。 功能 1.中文→英文实时语音文字翻译 2.英文→中文实时语音文字翻译
1
Stanford Phrasal是使用Java编写的基于统计短语的最先进的机器翻译系统。 从本质上讲,它提供了与Moses核心几乎相同的功能。 独特的功能包括:提供易于使用的API来实现新的解码模型功能,使用包含间隙的短语进行翻译的能力(Galley等人,2010年)以及短语表和词法重排模型的条件提取。 由斯坦福大学自然语言处理小组开发的一个团队,由教职人员,博士后,程序员和学生组成,他们共同研究允许计算机处理和理解人类语言的算法。 我们的工作范围从计算语言学的基础研究到人类语言技术的关键应用,涵盖诸如句子理解,自动问题解答,机器翻译,句法分析和标记,情感分析等领域。
2023-03-20 18:13:17 51.83MB 开源软件
1
European Parliament Proceedings Parallel Corpus 1996-2011 数据集是一个用于统计 机器翻译 的语料库,其中 Europarl 平行语料库来源于欧洲议会的程序,它包括 21 种欧洲语言版本: 罗马语(法语,意大利语,西班牙语,葡萄牙语,罗马尼亚语) 日耳曼语(英语,荷兰语,德语,丹麦语,瑞典语) Slavik(保加利亚语,捷克语,波兰语,斯洛伐克语,斯洛文尼亚语) Finni-Ugric(芬兰语,匈牙利语,爱沙尼亚语) 波罗的海语(拉脱维亚语,立陶宛语) 希腊语 European Parliament Proceedings Parallel Corpus 1996-2011 数据集最初由苏格兰爱丁堡大学信息学院于 2005 年发布,主要发布人为 Philipp Koehn。 该数据集于 2012 年发布第 7 版,相关论文有《Europarl: A Parallel Corpus for Statistical Machine Translation》
2023-03-16 22:52:05 39KB 机器翻译语料库
1