Simple Multi-dataset Detection#

标题： Simple Multi-dataset Detection

作者： Xingyi Zhou, Vladlen Koltun, Philipp Krähenbühl

机构： The University of Texas at Austin, Apple

摘要： 本文提出了一种简单的方法，用于在多个大规模数据集上训练统一的检测器。作者使用特定于数据集的训练协议和损失函数，但共享一个具有数据集特定输出的通用检测架构。通过自动将这些数据集特定的输出集成到一个共同的语义分类法中，避免了手动调和分类法的需要。实验表明，学习到的分类法在所有数据集上的表现超过了专家设计的分类法。多数据集检测器在每个训练领域的表现与特定于数据集的模型一样好，并且能够在没有对其进行微调的情况下泛化到新的未见数据集。

1. 工作内容与动机： 动机：构建一个通用且广泛的目标检测系统，能够跨越不同数据集和潜在不一致的分类法。工作：提出了一种在多个数据集上训练统一检测器的方法，自动整合不同数据集的输出到一个共同的语义分类法中。

2. 解决的问题： 如何有效地在多个具有不同标签和可能不一致分类法的数据集上训练一个统一的目标检测器。

3. 新问题： 是的，这是一个新问题，因为传统的目标检测研究通常集中在单一数据集上，而本文旨在解决多数据集训练中的挑战。

4. 科学假设： 假设通过使用视觉数据自动统一不同数据集的输出空间，可以训练出一个在多个数据集上表现良好的统一检测器。

5. 相关研究：

多数据集训练：提高模型在深度估计、立体匹配和行人检测等领域的鲁棒性。
数据集统一：MSeg手动统一了7个语义分割数据集的分类法；Universal-RCNN在三个大型数据集上训练了一个分割检测器，并使用跨数据集的注意力模块来建模类别关系。
零样本分类和检测：通过语义嵌入或辅助属性注释来表示新类别。

6. 解决方案的关键：

使用数据集特定的训练协议和损失，但共享一个通用的检测架构。
自动整合不同数据集的输出到一个共同的语义分类法，无需手动调和。
使用0-1整数规划公式来优化统一分类法、映射和检测器。

7. 实验设计：

在COCO、Objects365和OpenImages等大型数据集上训练统一检测器。
使用不同的训练策略和超参数来分析分区检测器基线的设计选择。
评估统一检测器和统一标签空间学习算法。

8. 数据集与代码：

使用了COCO、Objects365、OpenImages、Mapillary等数据集。
代码已在GitHub上开源：xingyizhou/UniDet

9. 实验结果： 实验结果支持了科学假设，表明统一检测器在多个数据集上的表现与特定于数据集的模型相当，并且在未见数据集上具有更好的泛化能力。

10. 论文贡献：

提出了一种在多个数据集上训练统一检测器的简单方法。
自动构建了一个统一的语义分类法，无需手动干预。
实验表明，该方法能够在多个数据集上训练出性能良好的检测器，并且在新领域中具有很好的泛化能力。

11. 下一步工作：

探索将语言线索作为辅助信息整合到标签空间学习算法中，以提高性能。
考虑标签层次结构，将COCO中的人物和OpenImages中的男孩等标签作为相关类别处理。
将统一检测器扩展到更大的模型和更广泛的应用场景中。