近日,中国科大视觉与多媒体研究组的研究团队在自动驾驶的视觉感知领域取得了新进展,提出了一个可以同时进行交通目标检测、可行驶区域分割以及车道线的多任务网络,在自动驾驶的感知中具有广泛的应用前景。相关工作以“Sparse Sharing Relation Network for Panoptic Driving Perception”为题,将发表在国际会议ACM MM2023上。
在目前的智能驾驶视觉感知中,各种感知任务基本上都被作为独立的任务进行考虑,单一任务的视觉感知算法在解决特定任务上可能具有较好的性能,但没有将交通场景中的各种元素作为一个整体看待,而忽视了对象之间的联系。而多任务方法可以通过一个网络同时处理多个任务。通过多任务学习,不同任务可以共享和传递信息,相互之间的关联性得以利用,提高整体感知结果的准确性和一致性;同时共享底层特征提取网络和计算资源,减少了冗余计算和存储开销,提高了资源利用效率。基于以上考虑,在最近的研究中提出将三个关键任务:交通目标检测,车道检测和可驾驶区域分割合并到一个多任务学习网络中。在之前的研究中,对于车道线以及可行驶区域这些具有明显先验知识的目标没有充分利用其空间与语义信息;此外,多任务学习中的负迁移问题并没有被解决,不同任务之间在训练过程中会出现相互干扰的情况。
图1 网络结构图
为了解决上述问题,研究组提出了一种更加高效的交通场景多任务学习网络,具体结构如图1所示。考虑到车道线细长的线状特征,研究组采用了分段多项式来对车道线进行回归拟合。对可驾驶区域的分割则是采用非对称的膨胀卷积来扩大水平方向上的感受野。此外,为了对交通场景中目标的空间关系进行建模,研究组对特征图进行切分后构建稀疏图,然后利用图卷积来增强区域上下文表示,从而获取特征映射中的空间关系。最后,研究组提出了一种基于稀疏共享的多任务学习方法,如图2所示。研究组通过剪枝为每个任务选取必要的特征通道,在训练过程中,每个任务只更新与其相关的特征,避免了在训练过程中对其他任务特征的干扰。不同任务之间共享的特征则是不同任务中具有关联的部分,不同任务同时训练能够有效促进特征的学习。研究组所提出的网络在BDD100K上达到了目前的最佳性能,在交通目标检测,车道检测和可驾驶区域分割三个任务上均优于之前发布的方法。
图2 稀疏共享的多任务学习方法
图书馆VIP信息科学技术学院的硕士江帆为该论文第一作者,图书馆VIP自动化系王子磊副教授为该论文的通讯作者。该工作得到了国家自然科学基金委、安徽省科技厅和图书馆VIP创新团队培育基金的资助。
论文链接:ACM MM2023
代码链接:待更新