YOLOS#

标题: You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection

作者: Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, Jiyang Qi, Rui Wu, Jianwei Niu, Wenyu Liu

机构: 华中科技大学, Horizon Robotics

摘要: 本文提出了You Only Look at One Sequence (YOLOS)，这是一系列基于纯Transformer架构的对象检测模型，目标是探索Transformer在2D对象和区域级别识别任务中的潜力，同时尽可能少地修改原始架构和引入目标任务的归纳偏差。

1. 论文试图解决的问题: 论文探讨了Transformer模型是否能够从纯序列到序列的角度出发，以最小的2D空间结构知识，执行2D对象和区域级别的识别任务。

2. 是否是一个新的问题: 是的，这个问题是新的。尽管Transformer在自然语言处理（NLP）中已经非常成功，但在计算机视觉（CV）中，特别是在对象检测这样的复杂任务上，直接应用Transformer仍然是一个相对较新和具有挑战性的领域。

3. 文章要验证的科学假设: 假设是：预训练的Transformer能够成功地从图像识别任务迁移到更为复杂的2D对象检测任务。

4. 相关研究:

5. 解决方案的关键: YOLOS的关键是在ViT的基础上进行最小的修改，用100个[DET]标记替换ViT中的[CLS]标记，并使用二分图匹配损失来进行对象检测，避免了将ViT输出序列重新解释为2D特征图。

6. 实验设计: 实验包括在ImageNet-1k数据集上预训练，然后在COCO对象检测基准上进行微调。作者还研究了不同的预训练策略（有监督和自监督）对迁移到COCO的影响。

7. 数据集和代码开源: 使用的数据集是ImageNet-1k和COCO。代码和预训练模型已在GitHub上开源，地址为：https://github.com/hustvl/YOLOS。

8. 实验结果支持假设: 实验结果表明，YOLOS在COCO对象检测基准上取得了竞争性的性能，证明了预训练的Transformer能够有效迁移到对象检测任务。

9. 论文贡献:

10. 下一步工作:

回答问题