一个能够理解自然语言指令并在视觉世界中执行相应动作的agent是人工智能(AI)面临的长期挑战之一。由于来自人类的指令繁杂,这就要求代理能够在非结构化的、前所未见的环境中,将自然语言与视觉和行动联系起来。如果人类给出的指令是一个导航任务,那么这个挑战就称为视觉语言导航(Visual-and-Language navigation, VLN)。它是一个蓬勃发展的多学科领域,越来越重要,具有非凡的实用性。
1