PAWS:单词加扰的释义对手
***** 2019年8月27日新版:六种语言的多语言PAWS *****
我们发布了PAWS-X,这是PAWS的多语言版本,支持六种语言。 有关更多详细信息,请参见。
*****结束新信息*****
该数据集包含108,463个人标签和656k噪音标签对,这些特征对建模含义,上下文和单词顺序信息对于复述识别问题的重要性具有重要意义。 该数据集有两个子集,一个子集基于Wikipedia,另一个子集基于 (QQP)数据集。
有关更多详细信息,请参见随附的论文:
动机
现有的复述识别数据集缺少具有高词法重叠而不是复述的句子对。 经过此类数据训练的模型无法区分从纽约到佛罗里达的航班和从佛罗里达到纽约的航班。
以下是数据集中的两个示例:
句子1
句子2
标签
(1)
尽管可以互换,但两辆车上的车身零件并不相似。
尽管相似,但两辆车的车身零件不可互换
2021-08-19 12:11:36
9KB
Python
1