好的,这是您提供的PDF文档《Quality-Aware Image-Text Alignment for Opinion-Unaware Image Quality Assessment》的中文翻译。
[文件名称]: Quality-IQA.pdf
[文件内容开始]
===== 第 1 页 =====
Lorenzo Agnolucci Leonardo Galteri Marco Bertini
佛罗伦萨大学
{name.surname}@unifi.it (注:unifi 是佛罗伦萨大学缩写)
无参考图像质量评估 (NR-IQA) 致力于设计在无法获得高质量参考图像时,能够测量符合人类感知的图像质量的方法。大多数最先进的 NR-IQA 方法是意见感知的 (opinion-aware),即它们需要人类标注进行训练。这种依赖性限制了它们的可扩展性和广泛适用性。为了克服这一限制,我们提出了 QualiCLIP(质量感知 CLIP),一种基于 CLIP 的自监督、无意见感知 (opinion-unaware) 方法,不需要人类意见。具体来说,我们引入了一种质量感知的图文对齐策略,使 CLIP 能够生成质量感知的图像表示。我们从原始图像出发,使用递增强度的失真对它们进行合成退化。然后,我们训练 CLIP 根据这些退化图像与质量相关的反义词文本提示 (antonym text prompts) 的相似性对它们进行排序。同时,我们强制 CLIP 为具有相似内容和相同失真程度的图像生成一致的表示。我们的实验表明,所提出的方法在包含多种失真类型的多个数据集上优于现有的无意见感知方法。此外,尽管不需要人类标注,QualiCLIP 在跨数据集实验中对抗监督式意见感知方法也取得了优异的性能,从而展示了卓越的泛化能力。代码和模型公开在 https://github.com/miccunifi/QualiCLIP。
图像质量评估 (IQA) 旨在根据以平均意见得分 (MOS) 表示的人类判断自动评估图像质量。具体而言,无参考 IQA (NR-IQA) 专注于开发不需要高质量参考图像的方法,因此更易于应用于现实场景。NR-IQA 在多个行业和研究领域发挥着关键作用。例如,考虑到社交媒体平台上每天捕获和分享的大量照片,设计能够客观测量图像质量以有效存储和处理这些图像的方法至关重要。
大多数 NR-IQA 方法是意见感知的 (opinion-aware),即它们在训练过程中需要人工标注的 MOS 作为监督 [35, 42, 58, 60]。一些方法,如 HyperIQA [42] 或 LIQE [58],直接在 IQA 数据集上训练模型参数。其他方法,即 QPT [60] 或 Re-IQA [35],通过自监督学习在未标记数据上预训练编码器,然后使用 MOS 微调编码器权重或训练线性回归器。然而,标注 IQA 数据集既昂贵又耗费资源,因为每张图像需要多个人类评分才能使其 MOS 可靠。例如,包含 4 万张真实世界图像的 FLIVE 数据集 [53] 需要约 4 百万次评分,单张图像最多达 50 次评分。对人类标注的需求严重阻碍了意见感知方法的可扩展性。此外,这些方法显示出有限的泛化能力,因此在标记数据不可用的场景中适用性有限,因为它们在未见过的数据集上性能显著下降。
图 1: CLIP-IQA [47] 和提出的 QualiCLIP 预测的图像质量分数对比,针对不同类型合成失真的递增强度。我们对 KonIQ-10k [11] 数据集中随机采样的 1000 张图像的结果进行了平均。我们的方法对应于预测的质量分数与退化严重程度之间更强的负相关性。失真强度缩放到 0 到 1 之间以便更清晰地可视化。
===== 第 2 页 =====
数据集。为了消除对昂贵 MOS 的需求,已经提出了几种无意见感知方法 [3, 9, 25]。例如,CL-MI [3] 引入了一种两阶段自监督方法,对合成退化和真实退化的图像采用两种不同的训练策略。然而,现有的无意见感知方法在跨数据集实验中表现显著低于意见感知方法,显示出有限的适用性。
在此背景下,我们提出利用视觉语言模型 (VLM) 的最新进展,提出一种基于 CLIP [32] 的自监督无意见感知方法。最近,基于 CLIP 的方法在 NR-IQA [41, 47, 58] 中取得了有希望的结果。例如,CLIP-IQA [47] 提出通过测量图像与两个质量相关的反义词提示的相似性来计算质量分数,无需任何任务特定的训练。然而,现成的 CLIP 模型难以生成质量感知的图像表示 [16, 58],因为它们更关注高级语义而非低级图像特征,如噪声和模糊。为了强调这个问题,我们从 KonIQ-10k 数据集 [11] 中随机采样 1000 张图像,并使用递增强度的几种失真对它们进行合成退化。然后,我们通过 CLIP-IQA 计算每张图像的质量分数并平均结果。我们期望更退化的图像版本对应于更低的质量分数。然而,图 1 显示 CLIP-IQA 的预测质量与失真程度之间的相关性很低。这一发现表明 CLIP 并非 本质上是质量感知的。
为了解决这个问题,我们提出了一种质量感知的图文对齐策略,该策略依赖于自监督学习以消除对人类标注的需求。我们首先使用递增强度对原始图像对进行合成退化。然后,我们测量每张图像与图像质量相关的反义词提示(如“好照片”和“坏照片”)之间的相似性。我们将这些提示分别称为正提示和负提示。最后,我们采用基于边际排序损失 (margin ranking loss) [16, 19] 的训练策略,使我们能够实现两个目标。首先,我们希望 CLIP 为具有相似内容和可比质量(即表现出相同失真量)的图像生成一致的表示。其次,正提示(负提示)与图像的递增退化版本之间的相似性必须与失真的强度成反比(正比)。我们的方法命名为 QualiCLIP(质量感知 CLIP),它既是自监督的也是无意见感知的,因为我们在训练过程的任何步骤都不依赖任何形式的监督——尤其是 MOS。得益于我们的训练策略,CLIP 嵌入空间中的图文对齐优先考虑低级图像特征而非高级语义。因此,QualiCLIP 生成的图像表示,其与反义词提示的相似性与图像的固有质量相关,如图 1 所示。
实验证明,所提出的方法在包含各种退化的多个数据集上优于现有的无意见感知方法。此外,QualiCLIP 是唯一一个在跨数据集设置中,即使与监督式意见感知技术相比,也能持续取得显著结果的无意见感知方法。我们的模型在不同数据集上强大而稳健的性能凸显了其值得称赞的泛化能力和对实际应用的适用性。
我们将贡献总结如下:
我们提出了 QualiCLIP,一种基于 CLIP 的自监督、无意见感知的 NR-IQA 方法,不需要任何类型的监督,特别是 MOS;
我们引入了一种质量感知的图文对齐策略,基于图像与质量相关的反义词提示的相似性对递增退化的图像对进行排序。训练后,QualiCLIP 生成质量感知的图像表示;
我们的方法在多个数据集上改进了现有的无意见感知方法,并且在跨数据集实验中即使与监督式意见感知技术相比也取得了优异的结果。
无参考图像质量评估 由于其在现实场景中的广泛应用,近年来 NR-IQA 的研究势头强劲 [1, 3, 26, 29, 42]。传统方法 [28, 29, 55] 依赖于提取手工制作的图像特征来推导质量分数。这些方法在合成数据集上取得了有希望的结果,但在具有真实失真的图像上表现不佳。最近,引入了几种依赖监督学习的方法 [1, 7, 26, 35, 38, 42, 52]。一些方法在模型训练中直接使用 MOS [7, 42, 52]。例如,HyperIQA [42] 提出了一种自适应超网络,将内容理解与质量预测分离。另一个研究方向涉及通过自监督学习在未标记图像上预训练编码器。然后,通过在人类标注上微调编码器权重 [60] 或训练线性回归器 [1, 26, 35] 将图像表示映射到质量分数。例如,QPT [60] 和 Re-IQA [35] 使用对比损失训练编码器以区分使用不同类型和程度失真退化的图像。尽管性能令人印象深刻,监督方法的可扩展性和适用性因其对昂贵人类标注的需求而受到限制。无意见感知方法 [3, 25, 29, 30, 40, 55] 消除了这一要求。其中一些
===== 第 3 页 =====
方法,如 NIQE [29],基于自然场景统计 [29, 55],而另一些则采用自监督学习 [3, 9, 25, 40]。例如,CL-MI [3] 在合成数据上预训练编码器,然后通过基于互信息的损失在真实图像上对其进行微调。然而,现有的无意见感知方法在跨数据集实验中落后于监督方法。相比之下,尽管不需要 MOS,我们的方法在未见数据集上即使考虑意见感知技术也取得了显著性能。
用于 NR-IQA 的视觉语言模型 VLM,如 CLIP [32],在包括图像和视频恢复 [2, 16, 21] 以及质量评估 [41, 47, 58, 49, 50, 51] 在内的多个低级视觉任务中取得了令人印象深刻的性能。CLIP-IQA [47] 研究了 CLIP 在无需任务特定训练的情况下评估图像质量和抽象感知的能力。此外,作者基于使用 MOS 学习两个反义词提示训练了一个名为 CLIP-IQA⁺ 的模型。LIQE [58] 以监督方式使用多任务学习方法利用场景和失真类型信息对 CLIP 进行微调。最近,提出了几种基于多模态大语言模型 (MLLM) 的方法 [50, 51, 54]。虽然这些方法取得了令人印象深刻的结果,但由于 MLLM 的高要求,它们需要大量的计算资源。在基于 VLM 的 NR-IQA 方法中,与我们的工作最相似的是 GRepQ [41],它通过自监督学习训练一个低级和一个高级的基于 CLIP 的编码器。CLIP 通过使用对比损失将同一批次内较高质量和较低质量的图像组分开来进行微调,其预测的质量是通过测量它们与反义词提示的相似性获得的。GRepQ 通过结合两个编码器的特征并将其作为输入馈送到线性回归器来预测最终质量分数,该回归器使用 MOS 在 IQA 数据集上进行训练。相比之下,我们提出了一种仅使用 CLIP 的自监督方法,无需低级编码器。我们建议使用递增强度对图像对进行合成退化,并使我们的模型通过排序损失学习根据其失真程度对它们进行排序。排序直接基于文本特征与每个反义词提示之间的相似性,而不是像 GRepQ 那样依赖于预测的质量。此外,与 GRepQ 不同,我们的方法在任何步骤都不需要任何形式的监督。
学习排序 学习对图像进行排序已被证明是用于图像质量和美感评估的有效技术 [7, 13, 19, 24, 35, 44]。例如,VILA [13] 通过在 CLIP 之上训练一个可学习的残差投影来解决图像美感评估问题,以根据其 MOS 对单个图像对的质量进行排序。另一个例子是 RankIQA [19],它涉及使用特定于数据集的失真以不同程度对图像进行合成退化。然后,对于每个 IQA 数据集,作者首先通过根据图像的退化程度对图像进行排序来预训练一个孪生网络 (Siamese network),然后使用 MOS 对其进行微调。在我们的工作中,我们使用一组给定的失真以递增的强度退化图像块 (crop) 对。然后,我们利用其隐含质量排序提供的信息来训练模型根据它们与反义词提示的相似性对它们进行排序。这样,我们的方法不需要在真实标签上进行微调。
我们提出了一种质量感知的图文对齐策略,使 CLIP 能够生成质量感知的图像表示。首先,我们使用递增强度对图像块对进行合成退化。然后,我们通过根据退化程度对两个反义词提示与渐进失真图像块对之间的相似性进行排序来微调 CLIP 的图像编码器,同时保证每个图像块对的表示一致性。我们保持 CLIP 的文本编码器固定。我们使用 ResNet50 [10] 作为 CLIP 的主干网络。我们在训练过程的任何步骤都不使用任何监督——特别是 MOS。由于篇幅限制,我们在补充材料中提供实现细节。
CLIP(对比语言-图像预训练)[32] 是一种在大规模数据集上训练的视觉语言模型,旨在共享嵌入空间中将图像和相应的文本标题在语义上对齐。作者采用对比损失来最大化成对的图像-文本样本之间的相似性,同时最小化与批次内所有其他样本的相似性。CLIP 包含一个图像编码器 和一个文本编码器 。给定图像 ,图像编码器提取其特征表示 ,其中 是 CLIP 嵌入空间的维度。对于给定的文本标题 ,每个标记化的单词通过词嵌入层 映射到标记嵌入空间 。然后,文本编码器 用于从标记嵌入中生成文本特征表示 。得益于其训练策略,CLIP 在共享嵌入空间内为表达相同概念的图像和文本生成相似的表示。
尽管真实失真无法完美地合成复制,但先前的研究表明,合成失真对于训练能够很好地泛化到真实世界图像的自监督 NR-IQA 模型仍然有效 [1, 26, 60, 35]。遵循这些工作,我们对原始图像进行合成退化
===== 第 4 页 =====
(具体过程见第 3.2 节),其中 且 是考虑的失真级别数。对于 的 ,第 对图像块的退化程度高于第 对。给定每对图像块,我们通过 CLIP 的图像编码器 提取相应的特征,得到 和 。类似于 [47],我们移除位置嵌入以放宽 CLIP 对固定大小输入的要求。令 和 为一对与图像质量相关的反义词提示,例如“好照片”和“坏照片”。我们分别称 和 为正提示和负提示。实际上,我们使用多对反义词提示,类似于 [48, 49]。我们使用 CLIP 的文本编码器 提取与提示相关的文本特征,得到 和 。我们将图像和文本特征都归一化为单位 范数。
为了实现目标 O1,我们提出使用一致性损失项来保证提示特征与构成每个退化对的每张图像的特征之间的相似性是可比的。我们假设从同一图像提取的两个重叠图像块具有可比的质量,类似于 [35, 60]。我们依赖一个边际排序损失 [7, 16, 19],定义为:
(1)
其中 表示余弦相似度,边界 是一个超参数。直观地说, 必须足够小,以强制提示与两个图像块之间的相似性具有可比性。对于 CLIP,每对图像-提示的余弦相似度在 范围内。
给定第 级合成退化,其中 ,我们假设第 对的两个失真图像块的质量高于构成第 对的两个图像的质量,类似于 [19, 34]。因此,我们强制正提示的特征与两个图像块的特征之间的相似性高于
图 2: 五个递增强度级别的合成失真示例。
===== 第 5 页 =====
当考虑两个图像块的更退化版本时的相似性。具体来说,我们定义一个边际排序损失为:
(2)
其中边界 是一个超参数。当我们考虑负提示时,上述考量的相反情况适用。因此,我们添加一个损失项来强制负提示的特征与两个图像块的特征之间的相似性低于当考虑两个图像块的更退化版本时的相似性:
(3)
直观地说, 必须足够大,以使提示与两个图像块的递增退化版本之间的相似性明显不同。使用 和 的组合实现了目标 。
最终的训练损失由下式给出:
(4)
其中 、 和 表示损失权重。图 3 展示了我们训练策略的概述。鉴于我们不使用任何 MOS,我们的方法既是自监督的也是无意见感知的。得益于所提出的训练策略,CLIP 学会更多地基于低级特征(如噪声和模糊)而不是高级语义来对齐图像和文本。结果,由 QualiCLIP 获得的反义词提示与图像表示之间的相似性与图像的固有质量相关,如图 1 所示。
在推理时,给定图像 ,我们使用 CLIP 的图像编码器提取其特征 。然后,我们计算 与反义词提示的特征 和 之间的余弦相似度,得到 和 。最后,我们获得最终质量分数 :
(5)
其中 是温度超参数。请注意,由于我们保持 CLIP 的文本编码器权重冻结,我们只需要计算一次反义词提示的文本特征,并且可以在训练和推理中使用它们。因此,在推理时,我们方法的计算成本与具有相同主干网络的纯图像编码器模型相同。
讨论 我们的质量感知图文对齐策略源于将常见的自监督 NR-IQA 训练技术应用于 CLIP 的固有限制。先前的方法,如 QPT [60] 和 Re-IQA [35],使用对比损失训练编码器,最大化来自同一退化图像的图像块表示之间的相似性,同时最小化与批次内来自不同图像的图像块表示的相似性。虽然这种策略被证明对纯图像编码器模型有效,但将其应用于 CLIP 的图像编码器会引入与 CLIP 训练过程 [32] 的显著不匹配。实际上,CLIP 使用模态间(即图像-文本)目标进行训练,在共享嵌入空间中对齐通过图像和文本编码器提取的相应图像和文本的特征。因此,仅考虑模态内(即图像-图像)相似性而不利用其与文本编码器的对齐来微调 CLIP 的图像编码器与其设计相矛盾 [27, 45]。为此,我们建议通过利用图像-文本相似性来训练我们的模型,以利用 CLIP 固有的模态间对齐。此外,使用对比损失来最大化(或最小化)反义词提示与同一批次内多个不同训练样本的相似性,相当于对具有完全不同内容的未标记图像的相对质量做出假设,这是不可行的 [60]。相反,通过依赖仅考虑同一图像渐进退化版本的排序损失,我们可以利用其固有的质量排序作为监督,以有效的方式训练我们的模型。
图 3: 提出的质量感知图文对齐策略概述。从原始图像的一对随机重叠图像块开始,我们用 个递增强度级别对它们进行合成退化,得到 对。然后,给定两个质量相关的反义词提示 和 ,我们通过考虑提示与退化图像块之间的相似性,使用三个边际排序损失 (, , ) 微调 CLIP 的图像编码器。具体来说,我们使用 强制 CLIP 为属于每对的图像块生成一致的表示,因为它们表现出相似的内容和相同的失真程度。同时,我们通过 (或 ) 使提示 (或 ) 与图像块的递增退化版本之间的相似性与失真的强度成反比(或正比)。
===== 第 6 页 =====
我们进行了多项实验来比较 QualiCLIP 与现有无意见感知和意见感知方法的性能。在补充材料中,我们还研究了模型的鲁棒性和可解释性。
评估协议 我们使用 Spearman 秩相关系数 (SRCC) 和 Pearson 线性相关系数 (PLCC) 评估性能,它们分别衡量预测的单调性和准确性。SRCC 和 PLCC 的值越高,结果越好。遵循 [8],在计算 PLCC 之前,我们通过四参数逻辑非线性函数传递质量预测。
我们在多个 IQA 数据集上评估我们的方法,每个数据集都包含带有以 MOS 形式表示的人类图片质量判断标注的图像。这些数据集包含各种类型的失真图像,包括真实退化、图像恢复方法产生的伪影和 AI 生成内容 (AIGC)。具体来说,我们考虑四个真实数据集:KonIQ-10k [11]、CLIVE [6]、FLIVE [53] 和 SPAQ [5];两个图像恢复数据集:CVIU [22] 和 PIPAL [12];以及两个 AIGC 数据集:AGIQA-1K [59] 和 AGIQA-3K [15]。关于数据集的更多细节在补充材料中提供,我们还在其中报告了对具有合成失真的图像的实验。遵循 [35, 26, 1],我们将数据集随机分为 70% 用于训练,10% 用于验证,20% 用于测试。对于包含参考图像的数据集,即图像恢复和合成数据集,我们确保基于参考图像进行分割以防止内容重叠。为了减轻训练集中的选择偏差,我们重复训练/测试过程 10 次并报告中位数结果。由于其规模大,对于 FLIVE,我们遵循 [25, 1, 35],仅使用官方的训练-验证-测试分割 [53]。
我们在两种设置下将我们的方法与最先进的方法进行比较:零样本 (zero-shot) 和跨数据集 (cross-dataset)。我们的方法在两种设置下保持一致;唯一的区别在于比较的方法。为了公平比较,我们使用我们的评估协议计算基线的结果。对于每个基线,如果官方预训练模型可用,我们使用它;否则,按照原始论文描述的过程训练模型。在零样本设置中,我们与现有的无意见感知方法进行比较。此外,遵循 [3],我们考虑可以修改为无需 MOS 即可运行的意见感知方法(用后缀“-OU”表示)。特别是,对于 GRepQ [41],我们遵循原始论文中详述的零样本策略。对于基于图像编码器和线性回归器的方法,如 CONTRIQUE [26],我们通过预训练的编码器提取图像特征,然后采用类似 NIQE 的框架
表 1: 零样本评估设置的定量结果。OU 代表无意见感知 (Opinion-Unaware)。OU 方法的最佳和第二佳分数分别以粗体和下划线标出。后缀“-OU”表示修改为无意见感知的方法(见第 4.1 节)。作为参考,我们报告了在每个测试数据集的训练分割上训练的监督方法(即 OU=✗)的性能。
===== 第 7 页 =====
来预测质量分数,类似于 [3]。在跨数据集设置中,我们通过将我们的模型与在不同于训练集的测试数据集上的监督式意见感知方法进行比较,来评估其泛化能力。由于其规模大,我们使用 FLIVE 作为基线的训练数据集。此外,我们在补充材料中报告了使用 CLIVE 和 PIPAL 的结果。为了公平比较,我们使用 ResNet50 主干训练 LIQE [58],并将分析限制在不依赖 MLLM 的方法上,因为这些模型需要大量的计算资源。
零样本设置 我们在表 1 中报告了零样本设置的结果。我们的方法在 16 项评估指标中的 13 项上取得了最佳性能,并在其余 3 项中排名第二,在 CVIU 数据集上观察到相对于最佳基线高达 9.2% 的 SRCC 提升。值得注意的是,QualiCLIP 在真实和图像恢复数据集上为无意见感知方法设定了新的最先进水平,证明了我们训练策略的有效性。相对于 CLIP-IQA 的改进突显了我们的模型比现成的 CLIP 模型生成更准确的质量感知图像表示。与在大多数场景中最强的现有方法 GRepQ-OU 相比,所提出的方法在除 PIPAL 之外的所有测试数据集上都获得了更好的结果。此外,虽然 GRepQ-OU 将低级编码器与基于 CLIP 微调的高级编码器相结合,但 QualiCLIP 仅依赖 CLIP,使其更直接和高效。作为参考,表 1 还包括了在每个测试数据集的训练分割上训练的监督式意见感知方法的性能。我们观察到,当训练集可用时,所有无意见感知方法都落后于监督式意见感知方法,这表明无意见感知模型的性能仍有提升空间。
跨数据集设置 表 2 显示了跨数据集设置的结果。尽管不需要 MOS,QualiCLIP 在 14 项评估指标中的 11 项上优于基线。具体来说,我们的方法在包含各种失真类型的数据集上取得了优异的性能,展示了其鲁棒性。这使得我们的模型非常适合没有训练集可用的实际应用。此外,比较表 1 和表 2 揭示了两个关键观察结果。首先,监督式意见感知模型在未见数据集上测试时性能显著下降(例如 GRepQ 在 AIGC 数据集上),突显了其有限的泛化能力。其次,QualiCLIP 是唯一一个即使对抗监督式意见感知方法也能持续取得显著结果的无意见感知方法。
我们进行了消融研究,以分析我们训练策略中不同组件的影响、每个损失项的重要性以及每个反义词提示在质量分数计算中的贡献。为简单起见,我们仅报告在真实数据集上的 SRCC 结果。
训练策略 我们评估了修改版方法的性能:1) :在第 3.2 节中对每个图像块应用两次连续退化,而不是仅一次;2) :在第 3.2 和 3.3 节中仅考虑三个退化级别,而不是五个;3) 我们使用预测的质量分数(通过方程 (5) 获得)计算排序损失,而不是与提示的相似度;表 3 显示了结果。首先,我们注意到应用多于一种失真会导致性能略有下降。我们认为这一结果源于合成退化变得过于严重,与强度级别无关,使得模型难以有效地对图像块进行排序。此外,与使用五个不同级别相比,仅考虑 个退化级别在训练期间为模型提供的信息更少,因此显著恶化了结果。然后,我们观察到直接在排序损失中使用预测的质量分数而不是与提示的相似度会导致性能不佳。我们将此结果归因于 CLIP 训练和微调过程之间差异的增加。实际上,虽然预测的质量分数来源于两个提示(见方程 (5)),但所提出的策略考虑的是多个单图像和单文本对,我们认为这更类似于用于训练 CLIP [32] 的技术。
损失项 我们研究了方程 (4) 中每个损失项的重要性,并将结果报告在表 4 中。首先,我们注意到仅使用 会导致性能显著下降,因为 没有利用递增退化图像块的固有排序所提供的信息。然而,当与任何其他损失项结合时, 始终产生积极影响。然后,我们观察到,虽然 和 仅在它们考虑的提示类型上有所不同,但 被证明对训练过程更为关键。尽管如此,表 4 显示结合三个损失项取得了最佳结果,证明它们对于训练 CLIP 生成准确的质量感知图像表示都至关重要。
单个提示贡献 关于训练损失项的消融研究结果表明, 对训练过程比 更关键。我们回顾一下, 和 分别涉及图像与正提示和负提示的对齐。这表明图像与负提示的相似性比与正提示的相似性对质量分数计算(如方程 (5) 所示)有更大的影响。为了支持这一假设,我们研究了在获得最终质量分数时单个提示的贡献。
我们进行了一个实验,其中我们直接使用图像与每个反义词提示之间的相似性作为质量分数。这是可行的,因为相似度和质量分数都在 0 到 1 之间。表 5 显示了结果。我们观察到负提示与图像之间的相似性比正提示提供了关于其固有质量的显著更多信息。这一结果支持了我们的假设,并与 在我们训练策略中的更大重要性一致。尽管如此,表 5 也表明两个提示对于质量分数计算都是必不可少的,因为它们的组合产生了最佳性能。
我们进行了额外的实验,以确定正负提示贡献的差异是源于我们的训练策略还是 CLIP 本身固有的。具体来说,我们遵循上述实验设置,评估提示在 CLIP-IQA [47] 的质量分数计算中的个体贡献。我们回顾一下,CLIP-IQA 使用现成的 CLIP 模型,并使用类似于方程 (5) 的策略计算最终质量分数。我们的实验揭示,在 KonIQ-10k 数据集上,单独使用 和 分别得到 SRCC 为 和 。这一结果使我们得出结论,与使用正提示相比,与负提示的相似性固有地提供了更多关于图像质量的有意义信息。我们将在未来的工作中更彻底地研究这一发现。
在这项工作中,我们提出了 QualiCLIP,一种自监督、无意见感知的方法,它增强了 CLIP 生成准确的质量感知图像表示的能力。特别是,我们设计了一种质量感知的图文对齐策略,训练 CLIP 根据其与反义词提示的相似性对递增合成退化的图像进行排序,同时确保具有相似内容和可比质量的图像具有一致的表示。与现有的无意见感知方法相比,QualiCLIP 在多个数据集上显示出显著的性能提升。此外,它是唯一一个在大多数情况下,在
表 5: 质量分数计算中单个提示贡献的分析。最佳和第二佳分数分别以粗体和下划线标出。
表 4: 损失项的消融研究。最佳和第二佳分数分别以粗体和下划线标出。
表 3: 训练策略的消融研究。最佳和第二佳分数分别以粗体和下划线标出。
表 2: 跨数据集评估设置的定量结果。我们使用 FLIVE [53] 数据集来训练监督方法。OU 代表无意见感知 (Opinion-Unaware)。最佳和第二佳分数分别以粗体和下划线标出。
===== 第 8 页 =====
跨数据集实验中优于意见感知方法的无意见感知方法。因此,我们相信 QualiCLIP 可以作为评估未来 NR-IQA 方法泛化能力的强大基线。
致谢
这项工作得到了欧盟委员会 Horizon 2020 计划的部分支持,资助编号为 951911 - AI4Media。
[参考文献列表保持原文格式不变]
===== 第 9 页 =====
===== 第 10 页 =====
===== 第 11 页 =====
===== 第 12 页 =====
补充材料
在本文档中,我们提供额外的细节和扩展的实验分析以补充主论文。补充材料组织如下:
S1. 数据集:我们报告实验中使用的数据集的详细信息;
S2. 额外的实验结果:
S2.1. 定量结果:我们提供了在合成数据集上的零样本结果以及使用 CLIVE 和 PIPAL 数据集训练基线时的跨数据集性能;
S2.2. 消融研究:我们分析了 CLIP 图像编码器主干对性能的影响;
S2.3. gMAD 竞赛:我们与 GRepQ 和 CLIP-IQA 进行了 gMAD 竞赛;
S2.4. t-SNE 可视化:我们使用 t-SNE 可视化 QualiCLIP 的图像表示;
S2.5. 监督式 QualiCLIP:我们扩展我们的方法以利用人类标注;
S2.6. 推理时间:我们评估模型的推理时间;
S3. 实现细节:我们提供训练策略、提示和合成失真的实现细节。
S4. 局限性:我们讨论了所提出方法的局限性。
为了进行实验,我们使用了多种类型的数据集,即真实数据集、图像恢复数据集、AIGC 数据集和合成数据集。我们依赖四个真实数据集:KonIQ-10k [11]、CLIVE [6]、FLIVE [53] 和 SPAQ [5]。KonIQ-10k 包含从 YFCC100M [43] 数据库中采样的 10K 张图像。CLIVE 包含使用各种移动设备捕获的 1162 张图像。FLIVE 是现有最大的 NR-IQA 数据集,由约 4 万张真实世界图像组成。SPAQ 包含使用多款智能手机拍摄的 1.1 万张高分辨率照片。遵循 [5],我们将 SPAQ 图像调整大小,使短边为 512 像素。我们使用两个图像恢复数据集:CVIU [22] 和 PIPAL [12]。CVIU 来源于 30 张参考图像,使用 9 种超分辨率方法进行失真,产生 1620 张图像。PIPAL 包含 23200 张使用 40 种失真类型(包括基于 GAN 的超分辨率方法)退化的图像,来源于 250 张参考图像。我们使用两个 AIGC 数据集:AGIQA-1K [59] 和 AGIQA-3K [15]。AGIQA-1K 包含使用 2 种扩散模型生成的 1080 张图像。AGIQA-3K 包含通过 6 种生成模型(包括自回归和扩散模型)生成的 2982 张图像。我们考虑四个合成数据集:LIVE [37]、CSIQ [14]、TID2013 [31] 和 KADID-10k [18]。LIVE 包含 779 张图像,使用 5 种不同失真类型在 5 个强度级别上进行退化,以 29 张参考图像为基础。CSIQ 来源于 30 张参考图像,每张图像使用 6 种不同的退化在 5 个强度级别上进行失真,产生 866 张图像。TID2013 和 KADID-10k 分别包含 3000 和 10125 张图像,使用 24 和 25 种失真类型在 5 个不同强度级别上进行退化,分别来源于 25 和 81 张参考图像。
零样本设置 在表 S1 中,我们将我们的模型与现有的无意见感知方法在合成数据集上的性能进行了比较。我们观察到我们的方法取得了具有竞争力的性能,在所考虑的方法中获得了最一致的结果。然而,正如在第 4.1 节中观察到的,当有训练集可用时,监督式意见感知方法比无意见感知方法性能更好。
跨数据集设置 表 S2 和 S3 分别展示了当使用 CLIVE [6] 和 PIPAL [12] 训练监督基线时的跨数据集设置结果。请注意,我们没有报告使用 PIPAL 作为训练数据集时 TReS [7] 的性能,因为没有公开的预训练模型可用。结果表明,无论使用哪个数据集训练基线,QualiCLIP 都取得了优异的性能。此外,我们观察到,与使用 CLIVE 相比,当在 PIPAL 上训练时,意见感知方法通常表现更差。我们将此结果归因于 PIPAL 中包含的失真类型的性质,这些类型与其他测试数据集中的类型不同。这一结果突显了监督式意见感知方法对训练数据的敏感性,并进一步证实了其有限的泛化能力。
CLIP 图像编码器的主干 遵循 [47],我们评估了 CLIP 图像编码器的主干架构对性能的影响。具体来说,我们检查了
表 S1: 使用合成数据集的零样本评估设置的定量结果。OU 代表无意见感知 (Opinion-Unaware)。OU 方法的最佳和第二佳分数分别以粗体和下划线标出。后缀“-OU”表示修改为无意见感知的方法(见第 4.1 节)。作为参考,我们报告了在每个测试数据集的训练分割上训练的监督方法(即 OU=✗)的性能。
表 S2: 跨数据集评估设置的定量结果。我们使用 CLIVE [6] 数据集来训练监督方法。OU 代表无意见感知 (Opinion-Unaware)。最佳和第二佳分数分别以粗体和下划线标出。
表 S3: 跨数据集评估设置的定量结果。我们使用 PIPAL [12] 数据集来训练监督方法。OU 代表无意见感知 (Opinion-Unaware)。IR 表示图像恢复 (Image Restoration)。最佳和第二佳分数分别以粗体和下划线标出。
===== 第 13 页 =====
ResNet50 和 ViT-B/32 主干。在表 S4 中,我们将 QualiCLIP 与 CLIP-IQA [47](利用现成的 CLIP 模型)的结果进行了比较。正如 Wang 等人 [47] 也观察到的,依赖 ViT-B/32 会显著阻碍相对于 ResNet50 的性能。这一结果源于卷积网络相比 Transformer 更强的归纳偏置,Transformer 对位置嵌入的移除更敏感。然而,对于两种主干,我们都观察到 QualiCLIP 优于 CLIP-IQA。
为了评估我们模型的鲁棒性,我们进行了组最大差异 (gMAD) 竞赛 [24]。特别是,我们使用包含 9.5 万张无 MOS 标注的合成退化图像的 Waterloo Exploration Database [23] 数据集,将 QualiCLIP 与 GRepQ 和 CLIP-IQA 进行比较。在此评估中,一个模型被固定为防御者 (defender),其质量预测被分为两个不同的级别。另一个模型扮演攻击者 (attacker) 的角色,其任务是在每个级别内识别出质量差异最大的图像对。对于一个模型要证明其鲁棒性,当它作为防御者时,所选图像对应该表现出可比较的质量;而当它作为攻击者时,则应该表现出显著的质量差异。我们观察到,当我们将 QualiCLIP 固定在低质量级别时(图 S1a 顶部),GRepQ 未能找到具有明显质量差异的图片对。当考虑高质量级别时(图 S1a 底部),GRepQ 找到的图像对显示出轻微的质量差距。然而,当扮演攻击者角色时(图 S1b),QualiCLIP 成功地暴露了 GRepQ 的失败,因为它指出了显示显著质量差异的图像对。图 S2 显示,在分析 QualiCLIP 和 CLIP-IQA 之间的 gMAD 竞赛结果时,可以得出相同的结论。因此,我们的方法比 GRepQ 和 CLIP-IQA 表现出更强的鲁棒性。
图 S1: QualiCLIP 和 GRepQ [41] 之间的 gMAD 竞赛结果。(a):分别将 QualiCLIP 固定在低质量(顶部)和高质量(底部)级别。(b):分别将 GRepQ 固定在低质量(顶部)和高质量(底部)级别。
图 S2: QualiCLIP 和 CLIP-IQA 之间的 gMAD 竞赛结果。(a):分别将 QualiCLIP 固定在低质量(顶部)和高质量(底部)级别。(b):分别将 CLIP-IQA 固定在低质量(顶部)和高质量(底部)级别。
我们通过 GradCAM [36] 可视化评估了我们的模型和 CLIP-IQA 的可解释性。GradCAM 是一种可视化技术,旨在通过研究给定层的梯度来理解输入图像的哪些区域对模型决策影响最大。我们使用 GradCAM 为每个反义词提示生成图像中最重要区域的热力图。我们使用“好照片”和“坏照片”分别作为正提示和负提示。遵循 [36],我们考虑 ResNet50 主干的最后一个卷积层。图 S3a 显示了正提示的结果。我们观察到,与 CLIP-IQA 相比,我们的模型导致与图像高质量区域(如马的头部)更好地对齐。类似地,图 S3b 说明当考虑负提示时,QualiCLIP 聚焦于图像中最退化的部分,这与 CLIP-IQA 形成对比。反义词提示与图像相应区域之间改进的对齐使得 QualiCLIP 比 CLIP-IQA 更易于解释。
图 S3: 针对每个反义词提示的输入图像最重要区域的 GradCAM 可视化。(a) 正提示“好照片”;(b) 负提示“坏照片”。左侧是原始图像,中间是 CLIP-IQA 的可视化,右侧是 QualiCLIP 的可视化。
我们通过 t-SNE [46] 可视化比较了 QualiCLIP 和 CLIP-IQA 生成的图像表示。遵循 [41],我们考虑来自 CLIVE 数据集的具有非常高或非常低质量的图像。具体来说,我们分别考虑标注 MOS 大于 75 和小于 25 的图像。图 S4 显示了结果。我们观察到,所提出方法获得的高质量和低质量图像的表示(图 S4b)对应于比 CLIP-IQA(图 S4a)更容易分离的聚类,后者的表示更交织在一起。这一结果证实 QualiCLIP 生成了更准确的质量感知表示。
图 S4: CLIVE 数据集的图像表示由 CLIP-IQA (a) 和 QualiCLIP (b) 生成的 t-SNE 可视化比较。“好”点(绿色)和“坏”点(红色)分别指 MOS 大于 75 和小于 25 的图像。
尽管我们的方法旨在消除对人类标注的需求,但它可以很容易地扩展以利用真实标签。类似于 CLIP-IQA⁺ [47],我们利用 MOS 通过标准反向传播使用均方误差 (MSE) 损失微调反义词提示,同时保持网络权重固定。我们将这种监督式意见感知变体称为 QualiCLIP⁺。我们在每个测试数据集的训练分割上训练 QualiCLIP⁺,并将性能报告在表 S5 中。为了公平比较,我们只考虑不微调网络权重而是训练更小参数集(如线性回归器或反义词提示)的监督基线。我们观察到 QualiCLIP⁺ 在此评估设置中也取得了有竞争力的性能,在大多数指标上优于基线。这一结果表明,所提出的方法也可以应用于人类标注可用的场景。
如第 3.3 节所述,我们不微调 CLIP 的文本编码器。因此,我们只需要计算一次反义词提示的文本特征,并且可以在训练和推理中使用它们。因此,在推理时,QualiCLIP 的计算成本与具有 ResNet50 主干网络的纯图像编码器模型相同。
为了验证这一点,我们在 KonIQ-10k 数据集 [11](包含 1 万张 像素的图像)上将我们模型的平均推理时间与监督基线进行比较。实验在 NVIDIA RTX 2080Ti GPU 上进行。我们将结果报告在表 S6 中。正如预期的那样,QualiCLIP 的推理时间与仅基于 ResNet50 的模型(如 CLIP-IQA⁺、LIQE、CONTRIQUE 和 ARNIQA)相似。请注意,CONTRIQUE 和
表 S6: QualiCLIP 与监督方法在 KonIQ-10k [11] 数据集上的平均推理时间比较。
表 S5: QualiCLIP⁺ 与监督方法的比较。OU 代表无意见感知 (Opinion-Unaware)。最佳和第二佳分数分别以粗体和下划线标出。
===== 第 14 页 =====
ARNIQA 使用全尺度和半尺度的输入图像来计算最终质量分数,因此计算成本更高。此外,我们的模型比基于两个编码器的方法(即 GRepQ 和 Re-IQA)更快。这一结果证明了 QualiCLIP 在现实场景中的效率和适用性。
训练细节 我们依赖 ResNet50 [10] 作为 CLIP 图像编码器的主干。类似于 [47],我们从编码器中移除位置嵌入,使我们的模型能够接受任何分辨率的图像作为输入。CLIP 嵌入空间的维度 为 1024。与 [41] 不同,我们没有在 CLIP 的图像编码器之上训练投影头。我们保持 CLIP 的文本编码器冻结。我们训练模型 10 个 epoch。我们使用 AdamW [20] 优化器,权重衰减和学习率分别为 和 。在训练期间,我们使用 224 的块大小和 16 的批次大小。我们将方程 (1) 中的边界 和方程 (2) 和 (3) 中的边界 分别设置为 和 。方程 (4) 中的损失权重 、 和 都等于 1。我们将方程 (5) 中的温度超参数 设置为 2。在推理时,我们的模型将整张图像作为输入。
提示 遵循 [48, 49],我们在训练和推理期间使用多对反义词提示。具体来说,我们使用:1) “好/坏照片”;2) “好/坏图片”;3) “高分辨率/低分辨率图像”;4) “高质量/低质量图像”;5) “清晰/模糊图像”;6) “清晰/模糊边缘”;7) “无噪声/有噪声图像”。我们对图像与提示对之间的相似性进行平均。
合成失真 如第 3.2 节所述,在训练期间,我们使用递增的强度级别对原始图像进行合成退化。具体来说,类似于 [1],我们考虑 24 种不同的失真类型,分为 KADID-10k [18] 数据集定义的 7 个退化组。每种退化有 5 个强度递增的级别。我们在图 S5 到 S11 中报告了每种失真类型所有强度级别的示例。每种失真描述如下:
亮度变化:
增亮 (Brighten):应用一系列色彩空间转换、曲线调整和混合操作以增加图像亮度;
变暗 (Darken):类似于增亮操作,但降低亮度而不是增加;
均值偏移 (Mean shift):通过向所有像素值添加一个常数值来调整图像像素的平均强度。然后,它将结果值限制在原始图像范围内;
模糊:
高斯模糊 (Gaussian blur):对每个图像像素应用高斯核滤波器;
镜头模糊 (Lens blur):对每个图像像素应用圆形核滤波器;
运动模糊 (Motion blur):对每个图像像素应用线性运动模糊核,模拟场景中移动相机或移动物体的效果。这导致图像在运动方向上显得模糊;
空间失真:
抖动 (Jitter):通过应用小的偏移来扭曲每个像素,从而随机置换图像数据;
非中心性块 (Non-eccentricity patch):从图像中随机选择块并将它们放置在随机的相邻位置;
像素化 (Pixelate):使用最近邻插值组合下采样和上采样操作;
量化 (Quantization):将图像量化为 个均匀级别。量化阈值使用 Multi-Otsu 方法 [17] 动态计算;
色块 (Color block):将均匀着色的方形块随机叠加到图像上;
噪声:
白噪声 (White noise):向图像添加高斯白噪声;
彩色分量白噪声 (White noise in color component):将图像转换到 YCbCr 色彩空间,然后向每个通道添加高斯白噪声;
脉冲噪声 (Impulse noise):向图像添加椒盐噪声;
乘性噪声 (Multiplicative noise):向图像添加散斑噪声;
颜色失真:
颜色扩散 (Color diffusion):将图像转换到 LAB 色彩空间,然后对每个通道应用高斯模糊;
颜色偏移 (Color shift):随机移动绿色通道,然后将其混合到原始图像中,并使用原始图像的归一化梯度幅度进行掩码;
颜色饱和度 1 (Color saturation 1):将图像转换到 HSV 色彩空间,然后按比例缩放饱和度通道;
颜色饱和度 2 (Color saturation 2):将图像转换到 LAB 色彩空间,然后按比例缩放每个颜色通道;
压缩:
JPEG2000:对图像应用标准 JPEG2000 压缩;
JPEG:对图像应用标准 JPEG 压缩;
锐度和对比度:
高锐化 (High sharpen):在 LAB 色彩空间中应用非锐化掩蔽 (unsharp masking) 以锐化图像;
非线性对比度变化 (Nonlinear contrast change):应用非线性色调映射操作以调整图像的对比度;
线性对比度变化 (Linear contrast change):应用线性色调映射操作以调整图像的对比度;
所提出的方法利用渐进退化图像的固有质量排序作为监督,以自监督方式训练模型。这涉及定义一种从未标记图像合成生成固有排序的方法,在我们的工作中,这通过应用合成失真来实现。虽然我们发现这种策略有利于评估技术图像质量,但它不直接适用于抽象感知(例如,快乐或自然感)[47] 或美感质量评估。实际上,为这种抽象或美感的量生成固有的图像排序,在不使用标注的情况下,需要比直接应用低级失真(尽管有效)更复杂的策略。未来的工作可以专注于开发此类策略,例如利用文本到图像生成模型 [33, 56] 的能力直接合成具有固有排序的图像。
===== 第 15 页 =====
(图 S5 到 S11 展示了所有 7 组合成失真类型在 5 个强度级别下的示例图像,此处省略具体图像)
图 S5: 亮度变化组中的失真类型在递增强度级别下的可视化。
图 S6: 模糊组中的失真类型在递增强度级别下的可视化。
图 S7: 空间失真组中的失真类型在递增强度级别下的可视化。
图 S8: 噪声组中的失真类型在递增强度级别下的可视化。
图 S9: 颜色失真组中的失真类型在递增强度级别下的可视化。
图 S10: 压缩组中的失真类型在递增强度级别下的可视化。
图 S11: 锐度和对比度组中的失真类型在递增强度级别下的可视化。
===== 第 16 页 =====
(此页为图 S11 的延续)
===== 第 17 页 =====
(此页为图 S11 的延续)
===== 第 18 页 =====
(此页为图 S11 的延续)
===== 第 19 页 =====
(此页为图 S11 的延续)
===== 第 20 页 =====
(此页为图 S11 的延续)
===== 第 21 页 =====
(此页为图 S11 的延续)
===== 第 22 页 =====
(此页为图 S11 的延续)
图 S11: 锐度和对比度组中的失真类型在递增强度级别下的可视化。(续)
[文件内容结束]