2019-02-27

图像检索调研

图像检索大致可以分为两个不同的方向。

一个方向是追求图像相似性的检索，在gallery中找相似或相同，商品检索、草图检索都属于这个范畴，侧重点在于检索相同分类的图片，可以称作class-level retrieval。

另一个方向是对图像内容的检索，图像中包含的物体、场景、结构可能存在视角、光照、遮挡等问题，侧重点在于对图像内容的匹配，可以称作instance-level retrieval，或CBIR（Content Based Image Retrieval）。

以下内容主要针对CBIR

instance-level

CBIR方向一篇综述SIFT Meets CNN: A Decade Survey of Instance Retrieval，详细介绍了instance retrieval的十年发展历程。

两大类方法，基于SIFT的方法和随后兴起的基于CNN方法，然而SIFT的方法并没有过时，在特定任务上仍然有优势。

method type	detector	descriptor	encoding	dim	indexing
SIFT-Large voc.	DoG, Hessian-Affine, etc.	SIFT	Hard, soft	High	Inverted index
SIFT-Mid voc.	DoG, Hessian-Affine, etc.	SIFT	Hard, soft, HE	Medium	Inverted index
SIFT-Small voc.	DoG, Hessian-Affine, etc	SIFT	VLAD, Fisher Vector	Low	ANN methods
CNN Hybrid	Image patches	CNN features	VLAD, Fisher Vector, pooling	Varies	ANN methods
CNN Pre-trained	column feature、FC	column feature、FC	VLAD, Fisher Vector, pooling	Low	ANN methods
CNN Fine-tuned	global feature(end to end)	global feature(end to end)	global feature(end to end)	Low	ANN methods

CNN base

SIFT meets CNN这篇综述中把基于CNN的方法分为了3类，其中混合式方法指从图像中取特定区域输入到网络中提取特征，再对特征进行编码、索引，这类方法利用CNN提取局部特征，类似于基于SIFT的方法，由于图像块多次执行网络前向过程，效率偏低，在这里不展开。

基于pretrained CNN模型的方法利用主流的CNN网络结构在大规模数据集上的预训练网络提取特征，再对特征进行编码、索引，这类方法主要研究重点在于特征的编码。其中提出MAC的论文Visual instance retrieval with deep convolutional networks是这类方法中的代表性工作。DELF方法是目前instance retrieval效果最好的模型，基于tensorflow实现，目前是tensorflow models中research的一个子工程。

基于finetuned CNN的检索方法核心是面向任务数据集进行网络的微调训练，同时end-to-end的生成图像级的global descriptor。其中用于微调主流网络是基于验证的网络结构siamese networks。

CVPR 2018的一篇文章Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking，详细对比了几种主流方法的性能，其中DELF方法结合Aggregated Selective Match Kernel和Spatial verification获得了压倒性的优势。在基于finetuned CNN的方法中，MAC、R-MAC、GeM提取的全局 descriptor有更好的性能。同时文章提出结合局部特征和全局特征的复合型方法可以获得更强的性能，同时开销也更大。

Indexing

查找性能是高维向量的检索任务面临的一大难题。检索性能优化有两个方向，一是对高纬向量进行优化，例如降维、二进制特征、汉明空间、乘积量化（PQ）等，另一个是查找方式的优化，例如建立倒排索引、近似最近邻查找（ANN）。通常将两个方法结合使用。

CNN base的方法提取的特征维度更加紧凑，对Indexing的优化要求低于SIFT特征。最近的文章中主流做法都是基于ANN，结合KD-tree和PQ

Datasets

instance retrieval任务的主要数据集：

name	images	queries	content
Holidays	1491	500	scene
Ukbench	10200	10200	common objects
Paris6k	6412	55	buildings
Oxford5k	5062	55	buildings
Flickr100k	99782	-	Flickr’s popular tags
Google-Landmarks	1060709	12894	landmarks

其中Ukbench数据用N-S score作为评价指标，在Ukbench中每个查询有4个正确项，N-S score指每个查询前四的匹配中正确匹配的平均数量。其余几个数据集均用mAP作为评价指标。Google-Landmarks是论文DELF提出的数据集，地标数量12894、数据集图像数量1060709、查询图像数量111036，且带有GPS信息。

Roadmap

阅读相关论文，整理开源数据集和开源代码；
搭建基于finetuned CNN方法的instance retrieval最小系统，试用faiss；
在最小系统上实验对比几种主流finetune CNN方法；
梳理业务需求，收集、迭代业务数据，定义问题；
完善流程，建立业务数据的baseline。

算法工程师的修炼

大雄的博客