1、通过滑动窗口分类检测
2、多尺度(和纵横比)来检测不同大小的对象
3、困难负例挖掘的重要性(由于类不平衡)
4、通过仅选择窗口子集来加速训练和推理
5、使用 CNN 进行对象类别检测
两阶段方法:Faster R CNN
一段式方法:SSD
评价数据集:COCO
6、涉及最先进的方法最近的改进
模块:特征金字塔网络、焦点损失
培训:复制粘贴数据增强
架构:RetinaNet、CenterNet、FCOS、Mask R CNN、DETR、Swin
7、实例分割
8、使用移位窗口的分层视觉转换器
9、DETR:使用变压器进行端到端对象检测
10、复制粘贴和大规模抖动数据增强
11、对象检测、分割、实例分割等的新基准数据集:
LVIS(Large Vocabulary Instance Segmentation):1200个类别,164K 图像,220万个实例分割
1