Learning image aesthetic subjectivity from attribute-aware relational reasoning network

该论文发表在(PRL)CCF C类

Pattern Recognition Letters 155 (2022) 84–91

Hancheng Zhu a,b, Yong Zhou a,b,∗, Rui Yao a,b, Guangcheng Wang c, Yuzhe Yang d

a:School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China

b:Engineering Research Center of Mine Digitization, Ministry of Education of the People’s Republic of China, Xuzhou 221116, China

c :School of Transportation and Civil Engineering, Nantong University, Nantong 226019, China d School of Electronics and Computer Science, University of Southampton, Southampton SO17 1BJ, United Kingdom

1.Introduction

​ 现有的方法通常利用卷积神经网络( Convolutional Neural Networks,CNNs )将图像美学映射为两个典型的任务,即二分类[ 6 ]和分数回归[ 7 ]然而,上述方法采用的单一标签并不能完整地描述不同人在图像中的主体性

​ 为了解决上述问题,一些工作试图利用可解释的美学属性来揭示影响人们对图像[ 13、14]的美学评分的线索。这些工作认为美学属性与图像美学密切相关,并直接利用美学属性来辅助图像美学评估任务[ 15 ]。然而,不同人对图像美学属性有各种各样的偏好,直接使用美学属性来学习不同人评分的图像美学分布可能存在问题。

例如,图1显示了来自AADB数据库的三幅图像和相应的十一个美学属性[ 13 ]。每张图片下方为5人对图片评分的美学分布和平均分,对图像进行美学评分(图1 ( a )、( b ) )。相反,图像中不明显的审美属性会导致人们的审美评价存在巨大差异(图1 ( c ) )。因此,图像中审美属性的多样性是导致人们对图像的审美感知具有不确定性的关键因素。为了充分利用美学属性对图像美学分布的影响机制,一个有效的解决方法是探索图像中多样化美学属性之间的隐含关系,以建模人们审美评分的主观性。

本文方法的主要贡献可归纳如下:

1.讨论了图像美学评价的主观性,分析了图像中美学属性之间的隐含关系对人们审美评价的影响。鉴于此,本文提出了一种基于属性感知关系推理网络的图像美学分布预测方法。

2.引入了一个有效的分布损失函数来优化所提出的模型,这可以增强模型对具有高不确定性的图像美学的学习效率,并提高我们预测图像美学分布的方法的性能。

3.提出了一个属性感知的关系推理网络来学习不同人评价的图像美学分布。在两个IAA数据库上的实验结果表明,我们的模型在学习图像美学主观性方面比最先进的模型具有更优越的性能。

Binary classification

摄影手工特征的提取:

早期的作品一般简单地将图像美学分为两类(高审美与低审美)。Datta等人[ 18 ]提取了一些与摄影规则相关的手工特征,如景深、颜色和构图,用于训练用于美学二分类的SVM模型。在[ 19 ]中,Tang等人将图像内容分为七类,并使用不同的策略来提取区域和全局手工特征,以评估图像美学。虽然这些方法可以利用基于摄影规则的手工特征来评估图像美学,但它们无法捕获能够全面表征图像美学的高级属性特征。

深度学习提取一些风格和语义属性:

随着深度学习[ 20 ]和大规模IAA数据库[ 21 ]的提出,例如,Lu等人[ 22 ]提出了一种美学分类方法,该方法可以利用CNN提取一些风格和语义属性,以进一步提高美学分类性能。Kao等人[ 23 ]提出了一种基于单任务网络的图像美学评价方法,利用语义属性识别来辅助图像美学分类任务。尽管美学二分类取得了重大进展,但这些方法不能定量地衡量人们对图像的美学评分。

Score regression

为了定量地评估人们对图像的美学评分,一些工作开始利用图像的平均评分作为目标进行回归建模。例如,Kong等人[ 13 ]引入了排序网络来联合学习自适应的图像属性和内容,用于图像美学分数回归。此外,Pan等人[ 14 ]提出了一种同时学习图像美学属性的多任务回归网络和美学评分,并引入判别器来加强所提出的多任务回归网络的学习能力。上述方法已经表明,审美属性的确对人们对图像的审美判断产生了巨大的影响。然而,由于视觉审美的主观性[ 12 ],平均审美分数很难直观地反映人们对图像的审美评分。

Distribution prediction

近年来,直接学习不同人评价的图像美学分布已成为IAA的研究热点。Talebi等人[ 8 ]使用预训练的深度网络将图像美学映射为评分分布,并使用EMD (推土机的距离)损失函数来优化所提出的深度模型。在[ 10 ]中,Li等人提出了一种多任务学习网络来构建美学分布模型,利用图像的个性属性来进一步提高模型的性能。She等人[ 11 ]使用图卷积网络提取布局感知特征来预测图像美学分布。

此外,Zeng等人[ 17 ]发现图像美学评估的三个任务具有内在联系,并提出了一个统一的概率公式来联合学习这三个IAA任务。这些方法主要利用提取的特征直接预测图像美学分布,但导致不同人对图像的美学评分存在不确定性的原因尚未被探索。此外,我们发现图像中的各种美学属性是影响人们对图像进行美学评价的关键因素。因此,利用图像审美属性之间的多样性关系来学习人们审美评价的主观性是可行的。

3.Method

为了利用美学属性的相关性来建模图像美学主观性,我们使用自注意力机制构建属性关系图来推断人们对图像的美学评分的不确定性

具体来说,首先利用卷积神经网络( Convolutional Neural Network,CNN )通过学习图像的美学属性来生成属性感知特征图。然后,通过关系推理模块可以得到图像的属性关系图。最后,利用属性关系特征和全局特征共同学习不同人评价的图像美学分布。

Backbone

3.1. Generate attribute-aware feature map

首先,使用在ImageNet [ 20 ]上预训练的CNN和一个1 × 1卷积来提取全局特征图Fg,其形式为Fg = fθ ( x )

然后,通过以下1 × 1卷积生成11个通道的属性感知特征图Fa。这里为什么是11个通道是因为有11个美学属性。

此外,采用全局平均池化( GAP )和tanh激活函数将属性感知特征图Fa转换为图像的美学属性进行模型训练,定义为[da = tanh ( GAP ( Fa ) ),其中,[da表示图像x的预测美学属性。

最后,我们使用Smooth l1损失来优化模型的属性预测分支,其形式为

La = { 0.5 | ( ( da - da ))2,if | ( da | da | )

3.2 Attribute relational reasoning

探究审美属性对人们对图像不确定评分的影响因素,需要厘清不同审美属性之间的隐含关系。受自注意力机制[ 16 ]的启发,我们引入了关系推理模块来生成图像中各种美学属性的成对关系图。

假设D =[ da1 , da2 , … , da11]∈R11 × L是由属性感知特征图重构而来,其中L等于W × H,W和H分别表示属性感知特征图Fa的宽度和高度。然后,我们计算每个属性感知特征da i ( i∈{ 1 , 2 , … , 11 })的成对关系,以捕获图像中不同美学属性之间的关系矩阵,可以表示为F ar = DTD,( 4 )其中F ar∈R11 × 11表示11个美学属性的关系图。这样,通过提出的属性关系图Far可以揭示图像中审美属性的特定相关性

3.3. Aesthetic distribution learning

我们首先利用全局平均池化(GAP)操作将全局特征图Fg转化为全局特征dg。令dar表示调整后的属性关系映射。

然后,得到映射美学分布的组合特征d, d = [ dar , da , dg] ( 5 )

此外,使用全连接层和softmax激活函数来产生预测的美学分布( s ),定义为( s = softmax ( Fc ( d ) )。( 6 )

假设s = { s ( 1 ),s ( 2 ),..,s ( N ) }表示真实感美学分布,其中∑nN = 1s ( n ) = 1,N表示得分库的个数。对于AADB数据库[ 13 ],N = 5,对于AVA数据库[ 21 ],N = 10。类似于Talebi和Milanfar [ 8 ],She et al [ 11 ],我们使用EMD (推土机的距离)损失函数来优化我们的模型

LEMD = ( 1N∑n = 1 | CDFs ( n)-CDF ( s ( n ) | 2 ) 1 2,( 7 )

其中CDFs ( n ) =∑nN = 1 s ( n )表示累积分布函数.为了提高高不确定性样本的学习效率,我们进一步提出了一个融入了人们审美评分不确定性的分布损失函数,定义为Ls = ( 1-N∑n = 1s ( n)2 )※LEMD,( 8 )

其中1∑nN = 1 s ( n ) 2表示图像审美分布的不确定性系数,其值越大,不确定性越高。在训练阶段,我们利用美学数据库中的训练样本,通过优化以下损失函数L = Ls + La来训练所提出的模型。( 9 )

在测试阶段,训练好的模型可以直接预测人们对图像美学分布的评分d

4.Experiment

5.Conclusion

在本文中,我们提出了一种基于属性感知关系推理网络的图像美学分布预测方法。为了学习人们对图像美学评分的不确定性,我们利用自注意力机制来捕获图像中美学属性之间的隐含关系。通过我们的方法得到的属性关系图已经被证明是影响人们对图像的美学评分的关键因素。通过加强对具有高度不确定性的图像美学的学习(同一张图五个人评分五个人的美学评分都不一样,我们的模型可以更准确地推断不同人感知的图像美学主观性。在两个典型的IAA数据库上的大量实验a结果和视觉分析表明,该方法在学习图像美感度方面是有效的

6.Personal thinking

  • ResNet网络结构:

ResNet 的各个变种,数据处理大致流程如下:

  • 输入的图片形状是 3×224×224。
  • 图片经过 conv1 层,输出图片大小为 64×112×112。
  • 图片经过 max pool 层,输出图片大小为 64×56×56。
  • 图片经过 conv2 层,输出图片大小为 64×56×56。(注意,图片经过这个 layer, 大小是不变的)
  • 图片经过 conv3 层,输出图片大小为 128×28×28。
  • 图片经过 conv4 层,输出图片大小为 256×14×14。
  • 图片经过 conv5 层,输出图片大小为 512×7×7。
  • 图片经过 avg pool 层,输出大小为 512×1×1。
  • 图片经过 fc 层,输出维度为 num classes,表示每个分类的 logits

由于论文中ResNet-101输出是对ImageNet数据集进行1000分类,要对原网络进行微调:去掉原ResNet101后面的全局平均池化和全连接层,得到2048 x 1 x 1

  • 1x1卷积和池化:

1x1卷积和池化操作的本质是压缩feature mapping(输入层或者叫表示层),1x1卷积通过改变feature mapping(输入层或者叫表示层)的通道数量,具体操作是减少通道数量实现压缩;


觉得不错的话,支持一根棒棒糖吧 ୧(๑•̀⌄•́๑)૭



wechat pay



alipay

Learning image aesthetic subjectivity from attribute-aware relational reasoning network
http://yuting0907.github.io/posts/3cfeb7e3.html
作者
Echo Yu
发布于
2023年9月16日
许可协议