1、可视化对象检测 摘要: 我们引入算法来可视化对象检测器使用的特征空间。我们的方法可以将视觉化的特征转化回多幅自然图像。我们发现这些可视化允许我们以新的方式分析对象检测系统,并获得对检测器故障的新见解。例如,当我们对高评分假警报的特征进行可视化时,我们发现,尽管它们在图像空间中显然是错误的,但它们常常看起来与特征空间中的真正性相似。这一结果表明,许多这样的假警报是由我们选择的特征空间造成的,支持创建一个更好的学习算法或构建更大的数据集是不可能纠正这些错误的。通过可视化特征空间,我们可以更直观的了解识别系统。 1、 介绍 图 1显示了具有 HOG特征的对象检测器和在大数据库的线性 SVM分类器的高
2、得分检测图像。为什么我们的探测器认为海水看起来像一辆汽车? 图 1:来自 PASCAL 的图像和来自 DPM 的高分的汽车 检测 (Felzenszwalb 等人 ,2010b)。 为什么检测器出现故障? 图 2:显示图 1 中假汽车检测的结果。右边显示了同一个补丁的 HOG 特征的可视化。 可视化显示,这个假警报在 HOG 空间实际上看起来像一辆汽车。 不幸的是,计算机视觉研究人员往往无法解释物体检测系统的故障。一些研究者责怪这种特性,其他 研究人员责怪训练方式,甚至更多的抱怨学习算法。然而,如果我们希望建立下一代的对象探测器,它似乎关键是要认识我们当前探测器的失败。 在本文中,我们介绍了一
3、个工具来解释一些失败的对象检测系统。我们提出算法来可视化对象检测的特征空间。由于大多数特征空间对于人类直接检查来说尺寸过大,可视化算法通过特征描述反转回自然图像。我们发现这些反演提供了用于对象检测的特征空间的直观的可视化。 图 2 显示了虚拟汽车检测的可视化算法的输出。这种可视化显示,虽然在原始图像中显然没有汽车,但是在 HOG 描述符中存在汽车隐藏。 HOG 特征看到 与人类看到的视觉世界略有不同,通过可视化这个空间,我们可以更直观地了解我们的对象检测器。 图 3:可视化来自可形变部分模型 (Felzenszwalb 等人 ,2010b)的一些高分检测,用于人、 椅子和汽车。你能猜到哪些是假
4、警报?花一分钟研究这个数字,然后参见图 23 相应的 RGB 色块。 图 4:由于有许多图像映射到类似的特征,我们的方法恢复在图像空间 不同的多个图像,但在特征空间紧密匹配。 图 3 反转了对 PASCAL 的更多顶部检测的几个类别,你能猜到哪些是假警报?花一分钟研究这个图像因为接下来可能会破坏惊喜 。虽然每个可视化看起来像一个真正的特性,所有这些检测实际上是假警报。因此,即使有更好的学习算法或更多的数据,这些假警报可能会持续。换句话说,这些特性是造成这些故障的原因。 本文的主要贡献是用于可视化对象检测中使用的特征的通用算法。我们提出了一种将视觉特征反转回图像的方法,以 HOG 和 CNN 中
5、激活的两个标准特征的实验显示对象检测。由于有许多图像可以产生等效的特征描述符,我们的方法还恢复了在图像空间中感知上不同的多个图像,但是映射到类似的特征向量,如图 4 中所示。 本文的其余部分介绍并分析我们的可视化算法。首先回顾 一个不断增长的特征可视化工作的手工制作特征和学习表示。我们用自动基准和大型人类研究评估我们的反演,我们发现我们的可视化在表示 HOG 特征的内容方面比标准方法在感知上更准确;参见图 5,用于我们的可视化和 HOG 字形之间的比较。然后我们使用我们的可视化来检查对象检测系统的行为并分析它们的特征。由于我们希望我们的可视化对其他研究人员有用,我们的最终贡献是公共特征可视化工
6、具箱。 2、 相关工作 可视化算法是特征反演的部分工作。 Oliva and Torralba( 2001) ,在早期工作中,描述了一种简单的迭代过程回复给出要 点描述符的图像。 Weinzaepfel 等人(2011)第一次重建图像给定其关键点 SIFT 描述符 ( Lowe, 1999)。他们使用基于最邻近的方法在大规模数据库上获得重建。然后 d Angelo 等人 (2012)进一步发展算法重建只给出 LBP 特征的图像 (Calonder 等人 , 2010; Alahi 等人 ,2012)。他们的方法解决了反转图像和不需要的数据集的问题。 Kato and Harada (2014)
7、提出将特征反演作为一个拼图问题来颠倒视觉。 由于所学习的视觉表示可能难以解释,因此近来已有可视化工作来了解 学习。 Zeiler and Fergus (2013)提出了一种用于来自卷积神经网络的可视化激活的方法。在相关工作上, Simonyan 等人 (2013)可视化类外观模型并对深层网络的进行激活。 Girshick 等人 (2013)提出通过找到激活特定特征的图像来可视化卷积神经网络。 Mahendran and Vedaldi (2014)描述了视觉特征从 CNN 反向结合自然图像的先验的一般方法。 图 5:本文中,我们提出算法来可视化特征。可视化是 更直观的直觉,让人们明白。 虽然
8、这些方法有利于重建和从其各自的特征 可视化图像,但可视化算法还是有一些优势的。第一,虽然大多数方法是为特定的功能量身定制的,但我们提出的可视化算法是独立于特征的。由于我们将特征反演作为机器学习问题,我们的算法可以用于可视化任何特征。在本文中,我们专注于对象检测的功能,并使用相同的算法来反转 HOG 和 CNN 功能。第二,我们的算法是快速的:最好的算法可以在台式计算机上一秒钟内实现反转功能,实现交互式可视化,我们认为这对于视觉系统的实时调试非常重要。最后,算法明确地优化了多个在图像空间中不同,但在特征空间中匹配的反转。 我们的方法建立在使用具有超分辨 率的耦合表示 (Yang et al, 2
9、010; Wang et al, 2012)和图像合成 (Huang and Wang, 2013)的词典对的工作之上。我们扩展这些方法表明类似的方法也可以可视化功能。此外,我们结合了新颖的术语鼓励重建图像的多样性,以从单个特征恢复多个图像。 特征可视化在计算机视觉中具有许多应用。计算机视觉社区一直在使用这些可视化来理解物体识别系统,以揭示由特征编码的信息 (Zhang et al, 2014; Sadeghi and Forsyth, 2013)来解释特征空间中的变换 (Chen and Grauman,2014),研究具有类似特征的不同图像 (Tatu et al, 2011; Lenc
10、and Vedaldi, 2014),发现机器学习系统中的安全故障 (Biggio et al, 2012; Weinzaepfel et al, 2011),并修复卷积神经网络的问题 (Zeiler and Fergus, 2013; Simonyan et al, 2013;Bruckner, 2014)。在许多应用中,特征可视化是计算机视觉研究者的重要工作。 可视化功能使分析能够补 充最近一系列提供诊断对象识别系统工具的论文,我们在这里简单回顾一下。 Parikh and Zitnick (2011, 2010) 介绍了一种用于对象检测器的人类调试的新范例,即在实验中采用的一个想法。 H
11、oiem et al (2012)进行了一项大型研究,分析物体检测器的错误。 Divvala et al (2012)分析基于部件的检测器,以确定对象检测系统的哪些组件对性能的影响最大。 Liu and Wang (2012)设计算法来突出哪些图像区域对分类器的置信度最有贡献。 Zhu et al (2012)尝 试确定我们是否达到了 HOG 的贝叶斯风险。本文中的工具实现了一种替代模式,通过可视化分析对象检测器。通过戴上“ Hog 眼镜”并根据特征可视化世界,能够更好地了解对象检测系统的故障和行为。 3、 反转视觉特性 现在描述特征反演方法。令 pRx0 是自然的 RGB 图像,并且 QRx
12、f 0是其对应的特征描述符。由于特征是多对一的函数,我们的目标是通过恢复所有映射到原始特征描述符的一组 图像 Nxx ,.,1 来反转特征 。 我们通过求解优化问题来计算这个反演集合 。希望找到几个 ix 使其在特征空间 22ixf 的重建误 差最小化,同时在图像空间中呈现不同。将此优化编写为: ij ijNi ixxf 221,m ina r g( 1) s.t ijijjiA xxS ,0 该目标的第一项有利于在特征空间中匹配图像,且松弛变量 ij 处理 ( penalize)在图像空间中彼此太相似的成对图像,其中 jiA xxS , 是颠倒 ix 和 jx 由 A 参数化的相似性成本。高
13、相似性成本直观上意味着 ix 和 jx 看起来相似,并且应当被处理( penalize)。超参数 R 控制相似性成本的强度。通过增加 ,以牺牲特征空间中的匹配为代价,反演将看起来更加不同。 3.1 相似性成本 我们可以使用各种相似性成本。在这项工作中,我们使用以下形式的成本: 2, jTijiA AxxxxS ( 2) 其中, ppRA 是亲和矩阵。由于我们对多样化的图像感兴趣,而不是彼此的负面,使矩阵 jTi Axx 正方化。此亲和矩阵本身即 A=I,对应于直接在颜色空间的比较倒置。然而,更多的度量也是可能的,我们现在描述。 图 6:使用配对字典的反转功能。首先将特征向量映射到特征基础上,通
14、过联合 学习特征和自然图像的耦合基础,我们可以将特征估计的系数传递到 图像基础,以恢复自然图像。 边缘:我们可 以设计 A 来支持不同的反转。令 CCA T ,其中 PPRC 2 。C 的第一 P 行对应于垂直边缘滤波器 -1 0 1的卷积,类似地,第二 P 行用于水平边缘滤波器 -1 0 1T 。 颜色:我们也可以鼓励反转旨在颜色上有所不同。令 CCA T ,其中 PRC 3是平均每个颜色通道的矩阵,使得 3RCx 是平均 RGB 颜色。 空间:我们可以强制反转仅在某些空间区域中的不同。令 CCA T ,其中PPRC 是二进制对角矩阵。若 C 的对角线上的对应元素为 1,则 x 的空间区域将
15、会为多样化。注意,我们可以将空间相似性成本与颜色和边缘成本相结合,以便仅在某些空间区域中促进颜色和边缘多样性。 3.2 优化 不幸的是,有效优化方程 ( 1) 是具挑战性的,因为它不是凸的。相反,我们将做两个修改来求解近似: 修改 1:由于目标的第一项取决于特征函数 f ,其通常不是凸的也不可微分,所以有效的优化是困难的。因此,我们用成对的完全的基础近似图像 ix 及其特征 ixf ,以使目标凸起。假设我们分别在自然图像基础 KPRU 和特征空间基础 KQRV 中表示图像 Pi Rx 及其特征 QR 。我们可以估计 U 和 V ,使得图像和特征可以在它们各自的基底( bases)中编码,但具有
16、共享系数 KR : Ux 0 和 V ( 3) 如果 U 和 V 具有这种配对表示,则我们可以通过估计重构特征的 来反演特征。参见图 6,用于配对字典的图形表示。 图 7: U 和 V 的一些字典对。每对左边是灰度字典元素,右边是 HOG 字典 中的正组件元素。注意字典之间的相关性。 修改 2:然而,当存在多个输出时,目标仍然不是凸的。我们使用贪婪方法次优解方程( 1)。假设我们已经计算了第 i-1 个反转 11,., ixx ,然后,我们仅与先前反演不同但仍然匹配 的 反演 ix 。 考虑到这些近似,我们用优化求解反演 ix : 11122,m ina r g ij jiii Vi ( 4)
17、 jjiA xUS , 其中在 i 参数化之前存在稀疏先验 R 。 2 在估计 i 之后,反演是 *ii Ux 。 相似性成本可以看作是对 i 加权 Tikhonov 规则化( l2 norm),因为 iTijiA BxUS , 其中, AUxxAUB jTjTT 由于这与套索结合,优化行为就像是弹性网( Zou and Hastie, 2005)。注意,如果我们删除松弛变量( 0 ),我们的方法简化( Vondrick 等人, 2013)并只产生一次反演。 由于相似性成本是等式( 2)的形式,我们可以将 jA xxS ; 吸收到等式( 4)的 l2 norm中。这允许我们使用现成的细数编码解
18、算器来有效地优化等式( 4)。我们在实验中使用 SPAMS(Marial等人, 2009)。优化通常需要几秒钟在台式计算机上产生每个反演。 图 8:我们发现,平均来自示例 LDA 检测器顶部检测的图像 提供了一种反转 HOG 特征的方法。 3.3 学习 学习基底 U 和 V,使得它们具有成对的系数。我们首先从大型数据库中提取数百万个图像块 ix0 及其对应的特征 i 。然后,我们可以解决类似于稀疏编码的字典学习问题,但是与成对的字典: 122220, m i na r g iiii iiVU VUx 122 U , 222 V ( 5) 其中,一些超参数 R1 和 R2 。我们使用 SPAMS
19、 优化上述内容( Marial 等人, 2009)。优化通常需要几个小时,并且只需要为固定功能执行一次。参见图7 了解学习字典对的可视化。 4、 基线特征反转方法 为了估计我们的方法,我们还开发了几个基线用于比较。首先描述单个特征反演的三个基线,然后讨论多个特征反演的两个基线。 4.1 示例 LDA(ELDA) 考虑示 例对象检测器的顶部检测( Hariharan 等人, 2012; Malisiewicz 等人,2011)对于图 8 所示的几个图像。虽然所有顶部检测都是假正性,但请注意每个检测捕获关于查询的一些统计信息。即使检测错误,如果我们广泛地看,就可以看到部分原始图像出现在每次检测中。
20、 我们使用这种观察产生第一个基线,假设希望反转特征 。我们首先用一个示例 LDA 检测器( Hariharan 等人, 2012)查询, y1 中, 和 是用大数据估计的参数。然后,我们在此数据库中的每个滑动窗口评分为 。反演特征是在 RGB 空间中的前 K 个检测的平均: Ki izKf 11 1,其中 iz 是顶部检测的图像。 这种方法虽然简单,即使数据库不包含要素模板的类别但却产生了合理的重建。然而,由于它需要跨越大型数据库运行对象检测器,计算十分昂贵。注意,在大脑研究中使用类似的最近邻法来可视化一个人可能看到的东西( Nishimoto等人, 2011)。 4.2 脊回归( Ridge
21、 Regression) 我们描述一个快速、参数反演基线为基础的脊回归。令 PRX 表示灰度图像的随机变量, PR 为随机变量的相应特征。我们将这些随机变量定义为在具有参数 x 和 YTXXXX 的 P+Q 高斯变量 , NXP 。为了反演特征 y,我们从高斯分布 XP 计算最可能的图像: xXPyf DRx m a xa r g1 ( 6) 众所周知,高斯分布具有闭合形式的条件模式: X Xyyf 11 ( 7) 在该反演算法下,任何特征都可以通过单个矩阵乘法来反转,允许在一秒内反转。 我们在大型数据库上估计 和 。实际上, 不是正定的,我们添加一个小的均匀先验(即 I ),所以 是可以被反
22、转的。既然希望反转任何特征,我们假设 ,XP 是固定的( Hariharan 等人, 2012),允许我们有效地学习大量数据集的协方差。对于具有不同空间维度的要素,我们通过边缘化未使用的维度来反转要素。 4.3 直接优化 我们现在提供一个试图找到图像的基线,当计算图像上的特征时,它足以匹配原始描述符。为了有效做到这一点,我们只考虑跨越自然图像基础的图像。令KDRU 为自然图像基础。我们发现使用 XX DDR 的前 K 个特征向量在此基础上工作良好。任何图像 DRx 可以由系数 KR 在此基础上编码: Ux 。我们希望尽量减少: Uyf 1 其中 22m ina rg yUfKR ( 8) 根据
23、经验,我们发现成功使用随机重新启动的 上的坐标下降来优化方程( 8)。我们使用对应用于 U 的稀疏 Gabor 类滤波器的过完整基础,计算不同尺度的 XX 的特征向量,并且转换较小的特征向量形成 U。 4.4 翻译出错 为了比较恢复多次反演的能力,我们描述了多个特征反演的两个基线。第一种 方法修改配对字典,不是并入相似性成本,而是向特征添加噪声以通过在随机方向上“微调”来创建稍微不同的反演: 122m ina r g iiii Vi ( 9) 其中, QQi IN ,0 是来自标准正态分布的噪声,使得 QI 为单位矩阵, R 为控制分集强度的超参数。 4.5 子集字典 此外,我们通过删除在先前
24、迭代中激活的基本元素来与修改配对字典的第二个基线进行比较。假设第一反演激活了第 R 个基本元素。我们通过仅给出配对字典其他 K-R 个基本元素来获得第二个反演。这迫使稀疏编码使用不相交的基本集合,形成不同的反转。 图 9:显示所有四个反演算法的结果在提出的图像块上 类似的维度通用的对象检测 5、单反转评价 我们使 用定 性和 定量 测量 来评 估反 演算 法, 使用 PASCAL VOC 2011(Everingham 等人 ,2010)作为我们的数据集 ,并转换相应对象的补丁。任何需要训练的算法都只能访问训练集。在评估期间,仅检查来自验证集的图像。用于示例 LDA 的数据库排除了反转减少数据集偏差的潜在影响的补丁类别。由于他们在对象检测中的普及,我们首先关注评估 HOG 特征。