内容概要:本文针对无人系统的智能室内视觉语言导航算法进行了深入研究,提出了基于余弦相似和波束搜索两种算法模型,通过改进视觉语言导航(VLN)中的特征匹配和评估策略,显著提高了导航算法在未知环境中的导航准确率和泛化能力。实验表明,这两种改进的 VLN 模型不仅在国际公开数据集 Room-to-Room 上表现优异,还在多项指标上超过现有模型。 适合人群:电子与通信工程领域的研究人员、高校师生、从事机器人导航和多模态融合技术的专业人士。 使用场景及目标:适用于需要研究或开发基于视觉和语言融合的导航算法的企业和机构,目标是提高机器人在复杂室内环境中的导航准确率和鲁棒性。 其他说明:本文提供的研究成果可以推广应用到智能家居、智慧物流、自动驾驶等领域,对于推动人工智能与机器人技术的融合发展具有重要意义。
1
一个能够理解自然语言指令并在视觉世界中执行相应动作的agent是人工智能(AI)面临的长期挑战之一。由于来自人类的指令繁杂,这就要求代理能够在非结构化的、前所未见的环境中,将自然语言与视觉和行动联系起来。如果人类给出的指令是一个导航任务,那么这个挑战就称为视觉语言导航(Visual-and-Language navigation, VLN)。它是一个蓬勃发展的多学科领域,越来越重要,具有非凡的实用性。
1