聚合近似最近邻残差向量描述符
作者: 陶勇 余久久
关键词:图像检索;图像描述符;近似最近邻向量;残差向量;码书训练
中图分类号:TP18 文献标识码:A
文章编号:1009-3044(2024)25-0036-04
0 引言
基于内容的图像检索(Content-Based Image Re⁃trieval,CBIR) 在计算机视觉领域引起了广泛关注,这是由于人们对网络上多媒体数据的兴趣日益浓厚。此外,由于每天上传的图像和视频数量庞大,因此存在许多相似或接近重复的图像,视觉搜索、电子商务、版权保护和图像标注等应用都对基于内容的图像检索提出了更高的需求。
在视觉特征工程时期的图像检索一般采用单一描述图像特征的描述符,如纹理特征、颜色直方图等。这一时期提出的描述符为早期的图像表示作出了很大贡献,为图像描述符研究提供了方向和思路。如统计图像局部区域的梯度方向直方图描述符[1]、描述局部纹理的描述符[2],以及面向稠密特征提取的描述符[3]等。在此基础上,研究者将方向梯度直方图和局部二值模式结合,形成新的描述符[4],大幅提升了描述符用于图像检索的准确度。按照描述符提取方式,可以将描述符划分为局部特征描述符和全局特征描述符。局部特征描述符关注的是图像细粒度更高的局部特征,判别不同图像往往根据其局部细微差别。因此,研究者们沿着这一方向不断突破,提出了一系列局部特征描述符以执行计算机视觉方面的任务。其中,一种尺度不变性局部特征描述符(Scale Invariant FeatureTransform,SIFT) [5]具有生成速度快、表征能力强的优点。该描述符的维度适中,可大大减轻存储压力;能快速检索匹配,且可提取图像局部特征点的位置、尺度、旋转角度等关键信息,在视角变化、光线强度和噪声干扰的影响下仍能保持较高的稳定性,在大规模图像数据集的检索与识别任务中被广泛使用。在此描述符的基础上继续研究,Bay等[6]使用Haar小波来近似SIFT方法中的梯度操作,提出了一种性能与SIFT 相当但速度更快的SURF特征。
随着图像规模的增大,局部特征描述符的弊端也逐渐显现。局部特征生成的图像描述符在进行图像检索时会因图像规模庞大而导致维度爆炸灾难,给计算机的存储和查询带来很大的负担。研究者通过对局部描述符进行加工,生成了一种维度小、表示能力强的图像全局描述符(Vector of Locally Aggregated De⁃scriptor, VLAD) [7],利用局部特征在训练类心的残差和近似表示局部特征,基于聚类中心串联所有残差和形成图像的全局表示向量。生成的全局描述符仅使用隶属于聚类中心的残差向量进行图像检索,就能获得较高的检索精度,较大程度减小了运算和存储的开销。
随着机器学习与深度学习的研究兴起,通过卷积神经网络学习图像的深度特征所形成的局部和全局描述符在计算机视觉领域被广泛应用。针对图像检索任务,经过改进的基于YOLO的神经网络被用于船舶图像的检索识别[8],结合深度哈希算法与注意力机制的花卉图像检索在公开数据集Oxford 17 Flowers上表现突出[9]。王彪等[10]微调VGG16网络,优化损失函数后采用迁移学习的方式生成面料特征,所开发的面料检索系统性能优秀。大量研究文献证明,深度卷积神经网络能够有效学习图像特征,为计算机视觉的发展提供了方向,并在人工智能领域被广泛应用。相比于深度学习的特征描述符,传统手工特征的生成速度快,构造方式简单,且在一定场景的检索识别任务中仍能满足检索精度要求,进而被深入研究。
基于聚合局部残差的描述符(Vector of Locally Ag⁃gregated Descriptor, VLAD) [7]能够全局表示图像,有效区别图像的差异特征,且训练速度快,计算开销不高,在检索和识别任务中不断被改进和使用。本文结合该描述符的研究基础,分析聚类中心的空间分布位置,改进聚类中心的选择方式,引入均值等分向量以近似最近邻的聚类中心累积残差向量。生成的描述符被命名为近似最近邻类心图像描述符(ApproximateNearest Neighbor Centroid,ANNC-VLAD) 。改进的描述符重新定义了每个局部特征的最近邻类心,从空间距离上说明近似的最近邻类心拥有更接近的特征表示,证明了描述符性能提升的可靠性。
1 聚合局部残差和的特征描述符VLAD
VLAD(Vector of Locally Aggregated Descriptors) 算法由Jégou等[7]提出,是一种通过聚合局部特征与聚类中心的残差来表示图像全局特征的描述符算法。该算法可以分为三个阶段:训练码书、计算残差向量和累积残差。
2 近似最近邻类心图像描述符ANNC-VLAD
研究聚合局部残差的描述符VLAD时发现,描述符的性能与码书的大小相关。聚类中心数量越多,描述符的维度越大,检索精度越高。然而,聚类中心的训练需要时间,数量越多训练时间越长,且描述符的维度越高,欧式距离运算的匹配速度越慢,也会增加存储压力。因此,在保证维度一定的情况下,提高描述符的精度是研究的目标。本文提出了一种利用近似最近邻聚类中心生成的图像描述符方法,在空间中找到每个局部特征欧式距离比最近邻类心更近的一个向量。此向量并不是通过训练得到的,即图像描述符ANNC-VLAD选择的是空间中比聚类中心欧氏距离更近的向量来计算残差,该向量被命名为近似最近邻向量。同时,为了不增加累积残差的计算量,将残差向量累积在隶属于最近邻的聚类中心。因此,该描述符不需要训练更多的聚类中心,码书生成速度快,计算的描述符维度紧凑,且在平均检索精度上具有一定的优势。
3 实验
在INRIA Holidays [7]、UKBench [11] 和Holidays_Flickr1M [7]三个国际公开的图像检索数据集上测试ANNC-VLAD描述符的性能,并与VLAD描述符进行比较。
3.1 数据集的介绍
INRIA Holidays 数据集包含1 491 张图片,其中500张用于查询,其余991张作为查询图片的关联图片。利用平均检索精度(mean average precision, mAP) 作为该数据集的评价指标。UKBench数据集由2 550 个物品分别从4个不同角度拍摄的10 200张图片组成,分辨率为640×480,采用查全率Recall@4作为该数据集的评价指标。每个物体抽取一张图像作为查询图像,数据集所有图片作为图像库,从中找寻关联图片。
3.2 聚类中心数目对检索结果的影响
本节实验对比了VLAD描述符与近似最近邻类心图像描述符ANNC-VLAD在不同数目的聚类中心时,在两个数据集上的平均检索结果。实验显示,训练更多的聚类中心,可以将特征的聚类空间划分得更为细致,保留的局部特征的类别数目越多,两种描述符的性能越好。然而,从描述符的形成过程和聚类中心的训练方法来看,类心数目的增加会带来更大的开销,形成的描述符维度越大。存储类心向量与近似最近邻向量的残差向量所需的空间越大,同时描述符维度越高,相似性计算也更耗时。
为更好地比较分析描述符的性能,本节实验在训练相同数据集时,使用相同的聚类中心数目对两种描述符进行检索验证,即K=16、32、64、128、256。继续增大聚类中心数目后,描述符性能提升效果并不明显,且训练时间成本和检索成本会大幅提升,不满足图像数据集即时检索的需求。图3展示了两种描述符在Holidays数据集上的平均检索精度的比较,图4展示了两种描述符在UKBench数据集的平均查全率的比较。
结果显示,两种描述符在训练相同的聚类中心时,描述符向量维度一致。本文提出的聚合近似最近邻残差向量的图像描述符ANNC-VLAD在Holidays数据集上的平均检索精度和UKBench数据集的查全率均优于聚合局部特征残差的描述符VLAD,且随着训练聚类中心数目的增大,ANNC-VLAD与VLAD描述符的性能都有一定的提升。
3.3 ANNC-VLAD 和VLAD 的开销比较
训练码书阶段,两种描述符训练相同大小的码书,且训练方法相同,因此码书的生成时间一致。在计算描述符向量时,由于ANNC-VLAD描述符需要使用K近邻算法找到最近邻和次近邻码字,并通过这两个码字计算四分之一点作为候选近似最近邻向量,此过程略微增加了计算量。因此,在两个数据集上的计算开销略微增大,但在合适维度下仍能较快给出响应结果,并提升描述符的性能。在保证码书大小均为64 且描述符的维度均为8192维时,对两种描述符的生成时间进行测试,表1与表2分别列出了在两个数据集下描述符的检索结果和生成时间。由于数据集图像的分辨率大小不同,Holidays数据集是高清图像,平均整体生成时间比UKBench数据集图片生成时间略长,但总体上,两种描述符都能满足大规模图像检索的快速召回要求。
4 结论
本文基于聚合局部残差描述符VLAD算法,在进行K近邻量化特征时,通过计算局部特征的最近邻码字和次近邻码字的四分之一等分向量来获得近似最近邻向量。然后,将近似最近邻向量与最近邻码字比较欧式距离,以决定量化局部特征的选择。通过使用近似最近邻向量来累积残差,这一方法减小了最近邻码字在量化特征时产生的误差损失。通过国际公开的检索数据集验证了描述符性能的提升效果。当码书大小均为64 时,近似最近邻向量残差描述符在Holidays数据集上的平均检索精度相比VLAD描述符提升了4.18%,在UKBench数据集上的查全率提升了4.10%,证明了该改进描述符的可行性。