该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大中华区平行词对齐语料库。同时,我们提出了一个基于word2vec的两阶段大中华区词对齐模型,该模型采用word2vec获取大中华区词语的向量表示形式,并融合了有效的余弦相似度计算方法以及后处理技术。实验结果表明我们提出的大中华区词对齐模型在以上两种不同文体的词对齐语料库上的F1值显著优于现有的GIZA++和基于HMM的基准模型。此外,我们在维基百科上利用该词对齐模型进一步生成了90 029组准确率达82.66%的大中华区词语三元组。
1
机器翻译词对齐的 Python 实现。 以 'python .py > ' 运行选项:-n num_lines 从输入文件中获取更少的行 -d 获取非默认文件,例如:sample ibm1.py:实施 IBM 模型 1 ibm2.py:实施 IBM 模型 2 hmm.py:实施 HMM 模型进行字对齐 fastAlign.py:实施快速对齐方法,但使用固定的 lambda 参数 alignIntersect.py:使用基于交集的对齐方式Dice 的系数 modelAgreement.py:为 IBM Model2 实现基于交集的对齐 带有 .a 扩展名的相应名称的文件是从这些模型中获得的前 1000 个句子的对齐,这些模型在英语和法语的完整 hansards 数据上进行训练。 它们可以与分数对齐一起运行以进行 AER 评估。 t_
2021-09-30 15:13:54 6.68MB Fortran
1
中-英词对齐工具
2021-05-21 09:00:21 19KB 词对齐
1
中-英词对齐工具
2021-05-21 09:00:21 1.57MB 词对齐
1
中-英词对齐工具
2021-05-21 09:00:21 2.44MB 词对齐
1
中-英词对齐工具
2021-05-21 09:00:20 26.88MB 词对齐
1
2万条词对齐的双语句子对 研究方向:自然语言,人工智能
2021-04-20 11:36:26 6.73MB 人工智能
1
手工调整过的华尔街日报的双语对齐资源,约8500句,已手工对齐。适合机器翻译做数据集
1