用于机器翻译的 RNN 编码器解码器
介绍
在基于短语的机器翻译中,通常使用无监督对齐方法提取短语对。 这些本质上通常是生成性的对齐方法无法结合关于语言完整性和短语对质量的其他度量的信息。 因此,提取的短语对通常相当嘈杂。 在不偏离常规短语提取程序的情况下使用这些短语对的一种方法是为每个短语对使用附加特征,然后使用判别训练学习这些特征的权重,其目标是区分好假设和坏假设。 随着最近在机器翻译中使用神经网络,我们有能力将可变长度的句子表示为固定大小的向量表示。 这种表示可以基于我们认为有用的任何质量度量来创建。 一旦我们根据语言的某些属性(语法、语义)获得句子/短语的向量表示,就相对容易问自己一个短语对有多好。 该项目建立在这项工作和其他神经机器翻译工作的基础上,以估计短语对的短语相似度。 评估将通过将此指标用作基于短语的翻译和短语表修剪中的另一个特征来进行。
短语相似度
使用无监督对齐进行短
2023-04-13 10:11:37
1.16MB
Python
1