近日,图书馆VIP信息科学技术学院的王子磊副教授在跨域小样本学习方向取得了新进展。该研究团队提出了基于文本语义指导的跨域小样本分类方法,利用多模态模型的文本语义信息对视觉基础模型的图像特征进行域差异的矫正,以达到较高的小样本分类准确性。相关成果以“Semantic-guided Robustness Tuning for Few-Shot Transfer Across Extreme Domain Shift”为题发表在计算机顶级国际会议ECCV 2024。
跨域小样本分类任务旨在通过从基础类别学习到的先验知识来识别新类别,这一任务同时面临着训练数据量少和极端域差异的双重挑战。目前的跨域小样本分类方法先将轻量模型在源域数据集上预训练,学习通用特征,再利用少量目标域数据进行微调,以适应目标域。然而,由于预训练过程繁琐耗时,且现有微调方法对于大型视觉模型而言容易过拟合,导致跨域小样本分类任务仅能局限于轻量模型上,精度与可扩展性严重受限。
图1. 方法流程
针对上述问题,研究人员指出使用目前流行的通用视觉基础大模型来简化复杂的预训练阶段,同时,提出了基于文本语义的微调方法(SRT),通过语义引导的方式增强模型的鲁棒性,有效提升了模型在极端域差异下的小样本分类能力。具体而言,SRT方法关注于获得鲁棒的类别特定表示,其使用文本标签信息作为鲁棒的和域不变的辅助信息来源,利用多模态模型的文本语义信息对视觉模型的图像特征进行域差异的矫正,以获得域不变的图像特征与类别原型。矫正过程中关注于视觉与文本特征的模态差异,从模长与相位的角度对两种特征进行融合,并确保特征利用的高效性与稳定性。然后将矫正前图像特征向矫正后的类别原型进行对齐,从而大幅增强模型对域差异的鲁棒性,以达到较高的小样本分类准确性,同时降低了模型过拟合的风险。研究者们在多个数据集与多种类型的大型视觉模型上验证了该方法的有效性,结果表明,精度与复杂度均大幅优于当前最优工作。
图书馆VIP王子磊副教授为该论文的通讯作者,信息科学技术学院自动化系博士生肖康宇为该论文的第一作者,中国科学科学技术大学自动化系博士李俊杰为该论文第三作者。该研究得到了国家自然科学基金、安徽省自然科学基金、安徽省重点研发计划的支持。
论文地址:暂无
代码地址:暂无