RT-DETR

RT-DETR#

标题: DETRs Beat YOLOs on Real-time Object Detection

作者: Yian Zhao, Wenyu Lv, Shangliang Xu, Jinman Wei, Guanzhong Wang, Qingqing Dang, Yi Liu

机构: Baidu Inc, Beijing, China; School of Electronic and Computer Engineering, Peking University, Shenzhen, China

摘要: 本文提出了一种名为Real-Time DEtection TRansformer (RT-DETR)的新型实时目标检测器。RT-DETR是首个实时端到端目标检测器,它通过设计高效的混合编码器和最小化不确定性的查询选择机制,显著提高了检测速度和准确性。此外,RT-DETR支持通过调整解码器层数来灵活调整速度,而无需重新训练。在COCO数据集上,RT-DETR-R50和RT-DETR-R101分别达到了53.1%和54.3%的AP,以及108 FPS和74 FPS的检测速度,超越了以往先进的YOLO检测器。

1. 工作内容与动机: 动机:YOLO系列模型在实时目标检测中受到非极大值抑制(NMS)的负面影响,导致速度和准确性下降。 工作:提出了RT-DETR,一种无需NMS的实时端到端目标检测器,通过混合编码器和查询选择机制提高速度和准确性。

2. 解决的问题: 解决了YOLO系列模型中NMS导致的速度和准确性问题,并提出了一种无需NMS的实时目标检测方法。

3. 新问题: 是的,提出了一个新的问题解决方案,即在实时目标检测领域中消除NMS的影响。

4. 科学假设: 假设通过改进DETR的编码器结构和查询选择机制,可以构建一个既快速又准确的实时目标检测器,超越现有的YOLO模型。

5. 相关研究:

  • 实时目标检测器:YOLO系列。

  • 端到端目标检测器:DETR及其变种。

  • 领域内值得关注的研究员:Nicolas Carion(DETR的提出者)。 相关研究归类为基于CNN的实时检测器和基于Transformer的端到端检测器。

6. 解决方案的关键:

  • 高效的混合编码器:通过解耦内部尺度交互和跨尺度融合来提高处理多尺度特征的速度。

  • 最小化不确定性的查询选择:为解码器提供高质量的初始查询,以提高准确性。

7. 实验设计: 在COCO val2017数据集上进行训练和验证,使用标准的COCO评估指标,包括AP、AP50、AP75以及不同尺度的AP(APS、APM、APL)。

8. 数据集与代码: 使用COCO数据集进行定量评估。项目页面提供了更多信息,但文中未明确指出代码是否开源。

9. 实验结果: 实验结果表明,RT-DETR在速度和准确性上均超越了先前的YOLO检测器,支持了提出的科学假设。

10. 论文贡献:

  • 提出了首个实时端到端目标检测器RT-DETR,它在速度和准确性上均超越了YOLO检测器。

  • 引入了高效的混合编码器和最小化不确定性的查询选择机制。

  • 支持灵活的速度调整,无需重新训练即可适应不同场景。

11. 下一步工作:

  • 改进对小目标的检测性能。

  • 探索使用预训练的大型DETR模型来提升RT-DETR的性能。

  • 将RT-DETR应用于更多的实时检测场景,并进行实际部署。