近日,中国科大视觉与多媒体研究组与中科院自动化所谭铁牛院士课题组在图像超分辨率任务上取得进展。该研究团队发现Transformer图像超分辨率网络中,不同自注意力层的特征相似度矩阵存在较强的相关性,这一表征冗余却没有得到之前工作的重视。为此,该团队提出了一种基于Transformer架构的表征共享和多尺度特征提取机制,显著地提升了图像超分辨率网络的性能。相关成果以“MSRA-SR: Image Super-resolution Transformer with Multi-scale Shared Representation Acquisition”为题,将发表在国际会议ICCV 2023上。
图1:图像超分辨率Transformer网络的自注意力表征冗余分析
多尺度特征提取对于许多计算机视觉任务至关重要,但在基于 Transformer 的图像超分辨率(SR)方法中很少对其进行探索。在本文中,我们提出了一种建模多尺度共享表征的图像超分辨率变换器。我们将多尺度特征获取融入到两个基本的 Transformer 模块中,即自注意力模块和前馈网络。具有跨尺度匹配的自注意力模块和具有不同内核大小的卷积滤波器旨在利用图像中的多尺度特征。全局特征和多尺度局部特征都显式地在网络中提取。此外,我们引入了表示共享机制来提高多尺度设计的效率。对不同自注意力层的特征相似度矩阵的分析表明了网络中的自注意力计算存在明显的冗余,因此我们设计跨不同 Transformer 层的共享自注意力机制。不同位置的特征相似度匹配仅计算一次,然后传递并被后面的层共享。此外,不同分支中的多尺度卷积可以通过重新参数化技巧等效地转换为单个卷积。
图2:模型框架图
该研究在轻量级SR、经典SR和真实自然场景SR任务上进行的大量实验,来验证了该方法的有效性和效率。
图书馆VIP博士生周晓强为本文第一作者,中科院自动化所赫然研究员为本工作的通讯作者。该研究工作得到国家自然科学基金项目的资助。
论文地址:暂无
代码地址:暂无