查看: 99|回复: 1

CVPR2023|出击夜间目标检测问题!2PCNet:两阶段一致 ...

[复制链接]

2

主题

2

帖子

6

积分

新手上路

Rank: 1

积分
6
发表于 2023-6-18 20:22:00 | 显示全部楼层 |阅读模式
作者丨GlobalTrack
编辑丨极市平台


论文链接:https://arxiv.org/pdf/2303.13853.pdf
源码链接:https://github.com/mecarill/2pcnet
简介

夜间目标检测在很多应用是至关重要的。然而监督算法对标注数据的要求是不可行的,因为带注释的夜间数据很少,且监督方法容易过拟合于训练数据。其中一个原因是夜间图像的弱光照条件使难以标注。域自适应是对缺乏夜间标注的一种有效解决方案,允许使用随时可用的有标注日间数据集。
近期提出的无监督域自适应方法利用学生-教师框架。因为学生模型初始从监督损失学习,与源域数据存在偏差。增广和对抗训练提出解决这个问题。然而在日-夜无监督域自适应问题中,这些方法遇到了很多的教师模型产生不准确的伪标签问题。在本文研究中,指出这些问题时由于对夜晚域小尺度特征知识了解不充分造成的,之后这些知识直接在学习过程中在教师模型和学生模型间传播,导致了较差的目标检测性能。
为了解决这个问题,本文2PCNet给出了一个二阶段一致非监督域自适应网络(two-phase consistency domain adaption network)用于夜间目标检测。本文网络将在第一阶段预测的高置信度为标签边界框与学生RPN提出的区域合并。然后教师在第二阶段使用合并后的建议框生成一组新的为标签。通过该方法提供了高置信度和低置信度伪标签组合。然后将这些为标签与学生生成的预测进行标签。这里需要使用加权一致性损失确保无监督损失高权重是基于可靠为标签,但允许较不可靠的伪标签参与训练。
为了进一步解决小尺度目标错误问题,这里涉及了一种学生缩放策略,故意缩小学生夜间图像和为标签。为了生成准确为标签,给教师图像保持在它们全比例。这导致更容易预测的较大目标为标签被缩小到较小目标,从而提高学生小尺度目标性能。
另一个问题是夜间图像存在白天场景中未出现的多种复杂情况,如黑暗区域、眩光、显著噪声、不平衡照明等。出现的问题是接收白天图像训练学生模型更倾向于日间区域特征。为了缓解这个问题,本文提出NightAug,一组随机夜间特定增广。NightAug包括模拟夜间条件的人造眩光、噪声和模糊等。通过NightAug增广,可以减少学生网络对源数据偏见。


本文方法

定义\boldsymbol{D}_{s}是白天源域数据。\boldsymbol{D}_{s} = \{I_{s}, C_{s}, B_{s}\}。定义\boldsymbol{D}_{t}是夜晚目标域数据集。\boldsymbol{D}_{t} = \{I_{t}\}。
本文的2PCNet由学生和教师网络组成。学生是在白天图像,NightAug增广的图像与无标签夜晚图像上训练的多域网络。教师模型关注于夜晚图像产生给学生模型的伪标签,且由学生模型指数移动平均得到的。在初始的预训练阶段后,教师模型开始产生伪标签允许学生模型初始化特征提取器和检测器。
每次迭代中,在2PCNet第一阶段,教师模型产生夜间图像的伪标签。伪标签由一个置信度阈值过滤,确保只有高置信度的伪标签给学生模型。伪标签的包围框与学生RPN生成的区域建议框合并。合并后的区域建议框用于从学生ROI网络生成预测框。第二阶段中,教师利用相同的合并区域建议框生成与伪标签配对的集合。
学生模型需要预训练一些周期,这是由增广的白天图像的监督损失实现的:


一旦预训练阶段完成,学生模型权重迁移到教师模型中。在后续的迭代周期中,教师模型权重是学生模型的指数平均移动(EMA)。教师模型生成的配对伪标签\{C_{p}^{*},B_{p}^{*}\}被用于指导无监督损失:


两阶段一致性

由于白天源域图像和夜间域图像巨大的域差异,教师模型不能产生高质量伪标签。这在全部场景都会存在,特别是由强烈夜间特点的区域(低光照、眩光、光线不均匀等)。教师模型只能在与白天共享较多相似性的区域产生自信的伪标签。这会偏向白天域。这种偏差给那些使用硬阈值过滤分类交叉熵的方法带来个问题,即剩下的伪标签只包含具有白天属性的简单样本,学生不会从更困难的区域学习。
由于对困难样本(具有高水平夜间属性的区域)了解极少,教师开始预测高度自信但不正确的伪标签。当教师向学生提供这些不正确的伪标签时,黏性循环开始了,教师模型反过来又更更新了不正确的知识。最后错误在训练时传播。为了解决误差传播问题,本文设计一种两阶段方法,将高可信伪标签和不自信的对应标签项结合。这种组合允许自信标签的高准确性与额外的对较少自信标签的知识被蒸馏到学生模型。
第一阶段,未标记的夜间图像I_{t}被用于教师生成伪标签的输入。这些伪标签用一个阈值进行过滤,只保留高置信度伪标签(C_{p},B_{p})。伪标签包围框用于学生模型的输入。B_{p}与学生模型RPN生成的区域建议框融合:


P^{*}是组合的区域建议框,用于学生模型RoI模块的输入预测类别C_{student}和包围框B_{student}。
第二阶段使用相同的组合区域建议框开始,在第一阶段作为RoI模块输入生成一组伪标签:


C_{student}与C_{p}^{*}比较:


这个操作确保了由教师产生的高度自信预测的知识提炼给学生。此外还可以学习到来自不太自信的预测中信息。算法中需要惩罚不太自信的预测,这里使用加权KL散度作为一致性损失:


\alpha定义为最高的置信度\alpha = \max(C_{p}^{*})。
学生模型尺度策略

本文指出物体尺度对夜间物体检测有很强的影响,主要因为较小的物体容易被炫光或噪声压制。为了使学生模型克服这个问题,本文对学生模型应用缩放增广,其中包括图像和有教师生成的伪标签。随着训练机型,按照一个训练表增加学生增广尺度,直到等于原始图像尺度。通过迭代地增加尺度,允许学生模型在训练过程早期关注于较小的特征。这一过程鼓励教师模型在训练后期阶段对较小尺度目标做出更准确的预测。反过来,精确的小尺度伪标签允许增加学生输入的尺度。
为了确保不忘记之前的尺度知识,应用尺度因子的高斯函数。由训练调度获得高斯函数范数。为了防止由于伪标签太小而产生额外噪声。
NightAug

夜间图像由很多在白天场景不会出现的复杂场景。这造成了学生-教师框架中学生模型将偏向源域。之前方法尝试解决这个问题,但要么需要计算密集的变换要么在框架中需要额外的域分类器,这些显然使框架复杂化了。本文提出NightAug增广,一种夜间特定增广方法,且属于计算轻量且不需要额外的计算。NightAug由一系列增广组成,目标是引导日间图像特征类似于夜间图像。
夜间图像的特征是较暗且比白天图像有较低的对比度。此外由于数码相机特性(例如亮度和彩色信号杂波),信号-夜比(Signal-to-night ratio, SNR)可能会更高。夜灯和发光的路灯与前灯也出现在夜间图像中。此外,由于相机无法在黑暗环境中检测到参考点,图像可能会失焦。
考虑到夜间图像特性,本文的NightAug包括随机的:亮度,对比度,伽马,高斯噪声,高斯模糊增强和随机炫光插入。增强随机应用于图像的,并在强度上也是随机的。这种随机性导致暴露在学生的图像差异更大,从而导致更稳健训练。为了进一步增加图像方差,在每个增广步骤中,图像随机片段将忽略该增广应用。这表明,夜间图像中不同区域有不均匀照明。这种不均匀的光纤影响了局部区域的上述特征。
实验

与之前SOTA方法一致,采用Faster RCNN作为基础检测模型与在ImageNet数据集上预训练的ResNet-50作为特征抽取器backbone。
BDD100K数据集
这里验证本文方法在真实驾驶场景并在夜间图像上评估域自适应性能。可以看出本文方法获得了最好的性能(AP 46.4)。另外注意到学生教师模型的AP指标不如上界算法,原因在于噪声伪标签的传播。但本文2PCNet方法没有遇到相同的问题。与上界方法相比,本文方法在大多数类上取得了更高的AP指标。


表2给出了基于Image-to-image Translation方法与本文2PCNet方法比较。变换方法不存在错误传播问题,因为是在没有教师情况下在Faster RCNN模型上训练。即使如此,还是看到,本文方法优于不良视觉转换的SOTA。


为了进一步比较本文方法与SOTA,在SHIFT仿真数据集上评估。优于魔术数据的性质,之前提到的许多夜间图像特征在这些数据中没有表现出来,如模糊度、噪声和眩光。
表3给出了相关实验结果。可以观察到先前使用教师学生框架的SOTA方法比Upper lower方法表现更差。性能较差的原因在于错误传播。可以看出,DA Faster RCNN性能优于SOTA学生-教师模型方法。,因为不会受到错误传播的影响。然而它仍基本低于性能Upper-bound。2PCNet性能也优于这些以前的方法。本文实现了比之前SOTA学生-教师模型+10.2 AP,比Upper-bound +2.1 AP。


部分图片可视化结果:

回复

使用道具 举报

2

主题

8

帖子

10

积分

新手上路

Rank: 1

积分
10
发表于 2023-6-18 20:22:32 | 显示全部楼层
没有test文件[发呆]
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|多点娱乐

GMT+8, 2025-10-15 02:11 , Processed in 0.150428 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表