VIM研究组在无源域适应目标检测方向取得新进展

Written by ：admin // Time：2023-08-05 // Click：81040

近日，VIM研究组在图像目标检测任务的无源域适应学习方向取得了新进展。团队发现，以往的工作往往都会采用基于伪标签的方式进行自训练，但它们只适合利用高置信度的伪标签，而忽略了一些有价值的低置信度伪标签。为此，该团队提出了一种处理伪标签的新范式，将高置信度和低置信度伪标签都高效利用起来。相关成果以“Exploiting Low-confidence Pseudo-labels for Source-free Object Detection”为题发表于多媒体顶级国际会议ACM MM2023。

由于在目标域上缺乏人工标注的数据，大多数现有的无源域适应目标检测的方法都采用mean-teacher的架构进行训练。该算法将模型分为teacher和student，teacher模型负责生成student模型学习的目标。这一过程采用的是基于阈值的伪标签方法。只有置信度高于阈值的伪标签会被引入到训练中。现有的方法通常手动设置一个很高的阈值，以确保高质量的伪标签。此外，由于类别不平衡的数据分布，不同类别的最佳阈值往往不同。因此传统的设置会导致很多有效的伪标签信息被丢弃，影响了模型的性能。

图1 模型结构图

针对上述问题，该论文提出了一个新的处理伪标签的模块（Low-confidence Pseudo-labels Utilization，LPU）。如图1所示，该文会设置一个高阈值和一个低阈值，对于置信度大于高阈值的的数据的伪标签，由于这部分伪标签的质量足够高，因此作者们采用常规方式直接进行训练。而对于置信度位于低阈值与高阈值之间的数据的伪标签，文章采用LPU模块进行训练。模块包含两个部分，一个是PST（Proposal Soft training），另一个是LSCL（Local Spatial Contrastive Learning）。PST旨在为proposal分配更准确的标签。具体来说，把student产生的proposals输入到teacher中，提取特征，将经过ROI head之后生成的分类分数作为soft label，然后进行自训练。另一方面，为了增强模型对空间位置邻近的proposal的判别能力，让模型能更精准的识别proposal的类别，不被错误的伪标签信息误导，作者们引入了LSCL模块。在这个模块，将空间位置邻近的proposal进行IoU-mixup，然后通过一致性对比学习损失进行优化。通过这种方式，鼓励模型在相邻的proposal之间探索更细粒度的线索，最终形成更鲁棒的分类边界。作者们在无源域适应目标检测任务上验证了方法的有效性，在多个数据集中取得了当前最好的性能。

图书馆VIP大数据学院的硕士研究生陈志鸿为本论文第一作者，王子磊副教授为论文通讯作者，博士后张燚鑫为第三作者。该工作得到了国家自然科学基金等的资助。

论文链接：ACM MM2023

代码链接：待更新