我们探索一种具有特殊时空特征提取结构的半监督视频对象分割新方法。 考虑到三维卷积网络可以卷积一定数量的图像序列,这是一种获取空间和时间信息的独特方法。 我们的网络由视觉模块,运动模块和解码器模块三部分组成。 视觉模块从第一帧中的对象中学习对象的外观特征,以供网络检测以下图像序列中的特定对象。 运动模块的目的是通过三维卷积网络获取图像序列的时空信息,该网络学习物体时间外观和位置的多样性。 解码器模块的目的是通过级联和上采样结构从视觉模块和运动模块的输出中获取前景对象蒙版。 我们在DAVIS分割数据集上评估我们的模型[15]。 与大多数基于检测的方法相比,由于视觉模块,我们的模型不需要在线培训。 结果,获得掩码所需的时间为每帧0.14秒,这比最新方法OSVOS [2]快71倍。 与最近提出的大多数方法相比,我们的模型还显示出更好的性能,其平均IOU精度可与最新方法相媲美。
1