DETR(DEtection TRansformer)是一种基于Transformer架构的端到端目标检测模型,其主要流程包括:
1. 特征提取:通过卷积神经网络提取输入图像的特征。
2. Transformer编码器:将特征图输入Transformer编码器,利用自注意力机制和全连接层获取位置的上下文信息。
3. 对象查询:引入特殊的“对象”查询向量,指导模型在每个位置关注的对象类别。
4. 解码器:将Transformer编码器的输出作为解码器的输入,通过多层自注意力计算和全连接层计算生成每个位置的对象特征。
5. 对象匹配:将对象特征与所有可能的目标类别进行匹配,产生候选框和得分。
6. 位置预测:为每个候选框产生精确的位置预测。
DETR简化了目标检测流程,无需使用锚框或非极大值抑制,直接输出目标检测结果
1