Lightweight Image Super-Resolution with Multi-Scale Feature Interaction Network
1.Introduction
发表在2021 IEEE(ICME)
据知乎说是毕业神会,两篇保博士毕业,CCF B
regular paper 的 正文 + 引用 = 6页
2021 IEEE International Conference on Multimedia and Expo (ICME)
以往的卷积神经网络的方法需要消耗大量的算力,难以适用于一些存储和计算资源有限的移动设备。
本文提出一个轻量级的多尺度特征交互网络( MSFIN ),通过此网络可以实现不同尺度的低分辨率观测图像的信息特征的融合,另外本文设计了一个轻量级的循环残差通道注意力块( RRCAB ),使得网络在足够轻量级的同时,也能从通道注意力机制中获益。
在一些基准测试集上的大量实验已经证实,我们提出的MSFIN能够以更轻量级的模型实现与现有技术相当的性能。
2.Related Work
2.1 SISR任务中基于深度学习的方法:
Dong等[ 1 ]首次提出了一种三层卷积神经网络( SRCNN )用于端到端的图像超分辨率重建
此后,许多深度超分辨率网络被提出,如VDSR [ 2 ]、MemNet [ 3 ]、LapSRN [ 4 ]、MSRN [ 5 ]等
SISR任务中注意力机制的方法:
2.2 SISR任务中注意力机制:
如今,注意力机制在计算机视觉任务中得到了广泛的应用。
Hu等人[ 6 ]提出了压缩激励网络( SENet ),利用通道之间的关系,在图像分类任务中取得了显著的性能提升。Zhang等[ 7 ]通过使用一些残差通道注意力块( RCAB )提出了所谓的残差通道注意力网络( RCAN )用于图像SR任务。
2.3 递归网络:
复杂而深入的SR模型可以提供显著的性能提升,但由于参数和计算量大,它们可能难以用于实际场景。特别是对于一些移动设备,其存储和计算资源有限。许多工作表明递归网络可以有效地减少参数的数量
例如,DRCN [ 8 ]和DRRN [ 9 ]采用递归机制进行参数共享。然而,简单地使用递归可以实现参数缩减,但会以性能下降为代价。
2.4 注意力机制的残差多尺度模块:
为了解决在简单使用递归实现参数缩减时模型效果下降的问题,一个可选的解决方案是设计一些轻量级且有效的SR模型。Ahn等[ 10 ]提出了一种面向移动场景的级联残差网络( CARN-M ),以PSNR降低为代价来减少计算量。Hui等[ 11 ]设计了一种信息蒸馏网络( Information Distillation Network,IDN ),该网络使用通道拆分策略来聚合具有局部保留信息的当前信息。
随后,他们在IDN的基础上,进一步提出了高效的信息多蒸馏网络和自适应裁剪策略来进一步提升性能[ 12 ]。Lan等[ 13 ]提出了基于注意力机制的残差多尺度模块( MADNet )来加强模型的特征表示能力。
类似地,Li等[ 14 ]提出了一种轻量级的超分辨率网络( s-LWSR )来实现高效的SISR。
3.Method
以上方法会存在这样的问题:
1.残差通道注意力块( RCAB )会产生大量的参数,这些参数主要来自残差模块中的卷积层。
2.此外,在基于多尺度特征的方法中,信息特征从不同的尺度分别聚合生成最终的HR特征,它们之间的相互协作没有得到充分发挥。
提出Multi-Scale Feature InteractionNetwork( MSFIN)
基于这些观察,为了利用图像特征并恢复更多的细节,我们提出了一种多尺度特征交互网络( MSFIN ),
它可以在性能和参数数量之间做出更好的权衡。
backbone网络框架如下:
RRCAB具体框架如下图:
4.Experiment
与之前的工作[ 5、7、11、17]一样,本文使用DIV2K数据集[ 18 ]来训练模型,该数据集有800张高质量的RGB训练图像。通过双三次插值对高分辨率图像进行降采样,得到低分辨率图像。
为了增加训练数据集,随机旋转和翻转来自DIV2K的800张训练图像。本文设定小批量大小为16,从低分辨率图像中随机裁剪大小为48 × 48的低分辨率图像块作为输入。通过设置β 1 = 0.9,β1 = 0.999,ε = 10 - 8使用ADAM优化器训练我们的模型。
学习率初始化为1 × 10-4,通过余弦退火将学习率降低到6.25 × 10 - 6。提出的SR网络是在PyTorch框架下实现的。
为了测试,还使用了几个广泛使用的基准测试:Set5 [ 19 ],Set14 [ 20 ],BSDS100 [ 21 ]和Urban100 [ 22 ]。在现有工作的基础上,采用峰值信噪比( PSNR )和结构相似度( SSIM ) [ 23 ]两个指标来验证SR的性能,计算了YCBCR颜色空间的亮度通道上的性能指标
4.1 Comparisons of different feature interaction schemes不同交互方案的对比
在通道数为20,输入LR块大小为16 × 16的前提下,进行了以下实验,包括交互连接( IC ,如图1所示)、复杂交互连接( CIC ,在IC的基础上增加从3级到1级的交互连接)和无参交互连接(NS,交互连接中的反卷积不共享参数)。
从表1中,我们可以得到以下观察结果。首先,特征交互的使用可以通过仅添加少量参数来提高SR性能。其次,CIC操作导致参数数量增加,但性能提升不大。
4.2 Comparisons of different basic modules in RRCAB
RRCAB中不同基础模块的比较
在这一部分,主要进行了一些实验来评估我们的基本RRCAB的有效性。
主要关注通道注意力( CA )、特征融合( FF , 1 × 1卷积后接第二组卷积,如图2所示)和通道混洗( CS )在分组卷积后的效果。
FF和CS主要用于对组卷积提取的特征进行融合和洗牌,以增强提取特征的表征能力。从表2可以看出,在参数增加不多的情况下,CA机制可以提高性能。FF机制只需要几个额外的参数就可以提高性能。这表明我们提出的RRCAB可以在一定程度上更好地平衡参数数量和性能。
4.3 Comparison with state-of-the-arts
将这些方法按照参数个数小于600K和大于600K分为两组,主要在规模为4的SR任务上对这些方法进行评估。
如表3所示,本文模型在可接受的参数数量下实现了可比较的性能。
此外,图3给出了各SR模型在Set14和Urban100数据集上的可视化结果。这也证明了我们的SR模型的有效性。为了增强MSFIN的性能,参考RCAN,也采用了自集成增强机制,记为MSFIN - S +和MSFIN +。从表3可以看出,我们的MSFIN - S +和 MSFIN+在相同的参数范围内,MSFIN +几乎可以超过所有其他方法。
5.Conclusion
为了利用图像特征并恢复更多的细节,提出了一种多尺度特征交互网络( MSFIN ),它可以在性能和参数数量之间做出更好的权衡。
主要贡献可以总结如下:
( i )基于通道注意力机制,提出了一种轻量级的循环通道注意力块( RRCAB )用于轻量级图像超分辨率任务,可以在更小的内存消耗下提高重建图像的质量。
( ii )基于这些RRCAB,我们开发了多尺度特征交互模块,该模块可以充分利用来自不同尺度的信息特征和交互连接,以更好地恢复生成图像的细节。
模型在DIV2K数据集[ 18 ]来训练模型,该数据集有800张高质量的RGB训练图像,并在Set5 [ 19 ],Set14 [ 20 ],BSDS100 [ 21 ]和Urban100 [ 22 ]做了基准测试,采用峰值信噪比( PSNR )和结构相似度( SSIM ) [ 23 ]两个指标来验证SR的性能。
6. 个人感悟
觉得不错的话,支持一根棒棒糖吧 ୧(๑•̀⌄•́๑)૭
wechat pay
alipay