Context-aware Attention Network for Predicting Image Aesthetic Subjectivity

论文发表在ACM Multimedia Conference 2020,ACM MM是CCF A类会议

1.Introduction

提出了一种有效的基于上下文感知注意力的模型来预测美学分数分布,该模型将强调局部特征与上下文信息联系起来,并捕获了美学的主观性。

提出了一个注意力模块,通过多级细节和远程感知来提供丰富的上下文依赖。它建立在层级和空间两个维度上。

引入一种新的基于Bhattacharyya距离的损失函数来衡量客观预测分布与主观真实分布之间的相似性。

实验结果表明,本文提出的方法取得了最先进的性能,在秩相关性上有大约10 %的提升。

3.Method

backbone

Hierarchical Context

从网络中融合多层特征来编码图像的层次上下文。由于通道描述符中的注意力可以看作是一个选择模式因子的过程[ 1 ],因此我们在该模块中使用通道特征。提出的融合模块来推导分层上下文如图3所示。可以概括为三个步骤。

​ 首先,从网络中提取这些特征。由于每个通道的特征都是用局部感受野学习的,缺乏区域之外的上下文信息[ 11 ],因此每个特征后面都有一个全局平均池化层( Global Average Pooling,GAP )和一个全局最大池化层( Global Max ),单独的池化( GMP )层。GAP和GMP将不同的空间信息压缩到信道载体中。然后,将这些特征沿通道轴线进行拼接。设f为提取的特征,n为特征总数,则串联后的F∈RC′× 1 × 1可写为:

F 𝜇 = [f𝑐1 𝜇 , f𝑐2 𝜇 , …, f𝑐𝑛 𝜇 ]

其中μ∈{ GAP,GMP },[ · , ·]表示级联操作.最后,我们在级联特征中使用一个全连接层,作为学习不同级别通道之间相关性的步骤。级联特征F被映射成一维向量Vh ( x )∈RC × 1 × 1。输出的层次上下文是GAP和GMP之后的向量之和。它将为美学评估捕获更多的信息模式因素。层次上下文Vh ( x )可以写为:

V ℎ (𝑥) = W0 (F𝐺𝐴𝑃 ) + W1 (F𝐺𝑀𝑃 )

Spatial Context

建立了一系列的膨胀卷积来获得对原始图像的长期感知。逐步提高扩张率,避免了感受野中只有一部分像素可以参与卷积的网格化问题。速率遵循递增规则[ 29 ],我们将速率调整为沙漏结构以满足我们的任务。为了涉及更多的像素,速率首先增加,以获得更大的感受野。然后减小,卷积集中在最相关的部分

最终,最后一个卷积层输出一个单通道矩阵作为空间上下文,以编码广泛的空间上下文信息。

4.Experiment

5.Conclusion

在本文中,提出了一种有效的基于上下文感知注意力的方法来预测图像美学评估的分数分布。

与最近大多数使用注意力机制裁剪或聚合图斑的工作不同,本文的方法通过学习上下文感知的注意力来增强部分特征,从而保留局部视图和整体视图之间的上下文关系。

此外,采用计算复杂度较低的Bhattacharyya距离来度量与感知人类视觉相关性较好的客观预测分布和主观评分分布之间的相似性。实验结果证明了所提方法的性能。

6.Personal Thinking

膨胀卷积Dilated convolution,中文叫做空洞卷积或者扩张卷积,起源于语义分割。


觉得不错的话,支持一根棒棒糖吧 ୧(๑•̀⌄•́๑)૭



wechat pay



alipay

Context-aware Attention Network for Predicting Image Aesthetic Subjectivity
http://yuting0907.github.io/posts/e091457e.html
作者
Echo Yu
发布于
2023年9月18日
许可协议