MultiWOZ
多域绿野仙踪数据集(MultiWOZ),是跨多个领域和主题的全人类书面对话的完整标签集合。 对话的大小为1万个,比以前所有带注释的面向任务的语料库大至少一个数量级。
感谢在上提供了最新的,经过纠正的数据集版本。
可在上获得新的,更正后的数据集版本。
可在以下访问EMNLP出版物中使用的数据集:
可在以下位置访问ACL发布中使用的数据集:
数据结构
如果该域允许,则包含3406个单域对话(包括预订),以及包含至少2个(最多5个域)的7,032个多域对话。 为了增强结果的可重复性,将语料库随机分为训练,测试和开发集。 测试和开发集各包含1k个示例。 即使所有对话都是连贯的,但其中一些对话并未按照任务描述来完成。 因此,验证和测试集仅包含完全成功的对话,因此可以对模型进行公平的比较。 在验证和测试集中没有来自医院和警察领域的对话。
每个对话都包含一个目标,多个用
1