THUMT:神经机器翻译的开源工具包 内容 介绍 机器翻译是一种自然语言处理任务,旨在自动使用计算机翻译自然语言。 最近几年见证了端到端神经机器翻译的飞速发展,这已成为实际MT系统中的新主流方法。 THUMT是由开发的用于神经机器翻译的开源工具包。 THUMT的网站是: ://thumt.thunlp.org/。 在线演示 THUMT的在线演示可从。 涉及的语言包括古代汉语,阿拉伯语,中文,英语,法语,德语,印尼语,日语,葡萄牙语,俄语和西班牙语。 实作 THUMT当前具有三个主要实现: :与开发的新实现。 它实现了Transformer模型( Transformer )( )。
1
neural-machine-translation
2023-03-02 16:02:49 29KB Python
1
OpenNMT-py:开源神经机器翻译 OpenNMT-py是项目的版本, 项目是一个开源(MIT)神经机器翻译框架。 它被设计为易于研究的,可以尝试翻译,摘要,形态和许多其他领域的新思想。 一些公司已经证明该代码可以投入生产。 我们喜欢捐款! 请查看带有标签的问题。 提出问题之前,请确保您已阅读要求和文档示例。 除非有错误,否则请使用或提出问题。 公告-OpenNMT-py 2.0 我们很高兴宣布即将发布OpenNMT-py v2.0。 此版本背后的主要思想是-几乎完整地改造了数据加载管道。 引入了新的“动态”范式,允许对数据进行动态转换。 这具有一些优点,其中包括: 删除或
1
matlab代码左移神经机器翻译(seq2seq)教程 作者:Thang Luong,Eugene Brevdo,赵瑞(,) 此版本的教程要求。 要使用稳定的TensorFlow版本,请考虑其他分支,例如。 如果您使用此代码库进行研究,请引用。 介绍 序列到序列(seq2seq)模型(,)在各种任务(例如机器翻译,语音识别和文本摘要)中都取得了巨大的成功。 本教程为读者提供了对seq2seq模型的全面理解,并展示了如何从头开始构建具有竞争力的seq2seq模型。 我们专注于神经机器翻译(NMT)的任务,这是带有wild的seq2seq模型的第一个测试平台。 所包含的代码轻巧,高质量,可立即投入生产,并结合了最新的研究思路。 我们通过以下方式实现这一目标: 使用最新的解码器/注意包装器,TensorFlow 1.2数据迭代器 结合我们在构建递归模型和seq2seq模型方面的专业知识 提供有关构建最佳NMT模型和复制的提示和技巧。 我们认为,提供人们可以轻松复制的基准非常重要。 结果,我们提供了完整的实验结果,并在以下公开可用的数据集上对我们的模型进行了预训练: 小型:由ET提供的TED演
2022-06-15 20:56:44 832KB 系统开源
1
使用文档级上下文改进变压器翻译模型 内容 介绍 这是我们工作的实现,将Transformer扩展为集成文档级上下文[ ]。 该实现在 用法 注意:用法不是用户友好的。 以后可能会改善。 训练标准的变压器模型,请参考的用户手册。 假设model_baseline / model.ckpt-30000在验证集上表现最佳。 使用以下命令生成虚拟的改进的Transformer模型: python THUMT/thumt/bin/trainer_ctx.py --inputs [source corpus] [target corpus] \ --context [context corpus] \ --vocabulary [source
1
神经机器翻译 这是使用Encoder-Decoder机制以及Attention机制(( )于2016年引入的神经机器翻译的一种实现。Encoder-decoder体系结构通常使用一种编码器,该编码器对将源句子转换成固定长度的向量,解码器根据该向量生成翻译。 本文推测使用固定长度向量是提高此基本编码器-解码器体系结构性能的瓶颈,并建议通过允许模型自动(软)搜索源语句的一部分来扩展此范围。与预测目标词相关,而不必明确地将这些部分形成为一个困难的部分。 编码器: seq2seq网络的编码器是RNN,它为输入句子中的每个单词输出一些值。 对于每个输入字,编码器输出一个向量和一个隐藏状态,并将隐藏状态用于下一个输入字。 解码器: 在最简单的seq2seq解码器中,我们仅使用编码器的最后一个输出。 最后的输出有时称为上下文向量,因为它对整个序列中的上下文进行编码。 该上下文向量用作解码器的初始隐
2022-03-28 11:05:27 5.82MB encoder decoder attention mt
1
MTBook:《机器翻译:基础与模型》肖桐朱靖波着-机器翻译:基础和模型
1
在这个全球化的时代,很可能会遇到与我们使用不同语言进行交流的人或社区。 为了承认由此引起的问题,我们正在开发机器翻译系统。 Google LLC 等多家知名组织的开发人员一直致力于使用机器学习算法(如人工神经网络 (ANN))引入算法来支持机器翻译,以促进机器翻译。 在这方面已经开发了几种神经机器翻译,但另一方面,循环神经网络(RNN)在该领域并没有太大发展。 在我们的工作中,我们试图将 RNN 引入机器翻译领域,以承认 RNN 优于 ANN 的优势。 结果显示了 RNN 如何能够以适当的准确度执行机器翻译。
2021-12-30 15:54:31 428KB Neural Machine Translation
1
PyTorch中的Seq2Seq 这是用于在训练序列到序列模型的完整套件。 它由几个模型和代码组成,可以训练和推断使用它们。 使用此代码,您可以训练: 神经机器翻译(NMT)模型 语言模型 图像到字幕的生成 跳过思维的句子表示 和更多... 安装 git clone --recursive https://github.com/eladhoffer/seq2seq.pytorch cd seq2seq.pytorch; python setup.py develop 楷模 当前可用的模型: 简单的Seq2Seq递归模型 带注意解码器的递归Seq2Seq (GNMT)递归模型 变形金刚-来自的仅关注模型 数据集 当前可用的数据集: WMT16 WMT17 OpenSubtitles 2016 COCO图片标题 可以使用3种可用的分割方法对所有数据集进行标记: 基于字符的细
1
ChineseNLP:中文NLP各领域的数据集,SOTA结果
1