1、题目:注意力模型的当前发展水平作者:Ali Borji, and Laurent Itti摘要:视觉注意力的建模,特别是刺激驱动的,基于显著性的注意力,在过去25 年内已经是一个非常活跃的研究领域。现在有很多不同的模型,除了给其他领域带来理论贡献以外,这些模型已经在计算机视觉,移动机器人,和认知系统展示出成功的应用。这里我们从计算角度综述应用在这些模型的基本概念。我们提出了对大概 65 个模型的分类,提供了一个方法、性能和缺点的关键的比较。特别是,提出了从行为研究和计算研究得出的 13 个标准,来量化笔记注意力模型。并且,我们解决了一些具有挑战的模型问题,包括计算模型的生理解释,与眼动数据库的
2、关系,自上而下和自下而上的分离,以及构建有意义的性能指标。最后,我们突出注意力模型的今后研究方向,为未来提出见解。1,介绍每秒钟有大量的视觉信息进入人们的眼睛12。如果没有一个智慧的机制来滤除视觉数的中的错误的数据,实时处理这些数据将是一个非常恐怖的事情。高层次的认知和复杂处理,比如物体认知或者场景理解,都依赖这些经过这种方式【注:一个智慧的机制来滤除视觉数的中的错误的数据】转换过的易处理的数据。本文将讨论的这个机制就是视觉注意力,他的核心在于选择机制的思想以及相关的概念。对人类来说,注意力通过已经进化为高分辨率的中央凹的视网膜【注:中央凹(central fovea):是眼球后极视网膜上一个
3、浅黄色的区域,称为黄斑。其中央有一椭圆形小凹,称为中央凹】和一个底分辨率的周围区域实现的。尽管视觉注意力将这些解剖学组织指向场景中的重要部分来采集更具体的信息,(视觉注意力模型的)主要问题是基于这个指向的计算机制。近年来,科学研究的很多方面已经旨在回答这个问题。心理学家研究了视觉注意力的相关行为,比如变化盲点34【注:变化盲点 Change blindness 是一个心理学现象,当刺激发生变化时,人们往往无法注意到】,无注意力盲点5【注: 无注意力盲点 inattentional blindness 是我们无法注意到一些显而易见的激励】和注意瞬脱6 【注:注意瞬脱 attenional bli
4、nk是指在一个连续的注视过程中,我们会短时间内无法注意到一些显著的物体或者其他东西】。神经生理学家证明了神经元是如何适应自己来更好的感知感兴趣的物体2728。计算神经科学家已经构建了现实的神经网络模型来模拟和解释注意力行为(比如2930)。受这些研究的鼓励,机器人学家和计算机视觉科学家已经试图解决计算复杂度的内在问题来构建能够实时工作的系统(比如1415)。尽管现在在以上提及的研究领域已经有很多模型,这里我们仅讨论能够计算图像或者视频的显著图的模型(见下节的定义)。对于计算视觉注意力的计算模型的一般综合,包括偏向竞争10,选择调节15,注意力模型的规范化181,和其他模型,参考8 。从心理学、
5、神经生理学以及计算角度出发的注意力模型的综述,参考9771012202204224。图 1 显示了注意力研究的分类,并突出了我们的综述范围。1.1 定义尽管术语 attention,saliency 和 gaze 经常被相互替换使用,但是他们之间有更细微的描述他们的定义。注意力 attention 是一个普遍概念,覆盖了影响选择机制的各个方面,无论他们是场景驱动的自下而上的机制或者是预期驱动的自上而下机制。显著性 saliency 直觉上刻画了场景的一些部分,可能是物体或者区域,这些部分似乎相对他们的临近区域突出。术语“salient” 通常在自下而上的计算模型1814中提及到。Gaze,一个
6、眼睛和脑的协调运动,通常被用作注意力在自然行为中的代名词。(见99)。比如,一个人或者一个机器人必须和周围的物体进行交互,在场景中移动是控制注意点来执行任务。从这点讲,注意点控制同时集视觉,行为和注意力来执行感觉运动协调,这是某些特定行为(比如到达 reaching和理解 grasping)所必须的。1.2 起源很多注意模型的基础能够追溯到 Treisman&Gelades81,他们提出的“特征整合理论” 陈述了那些视觉特征是重要的以及他们如何组合来在弹出式的和连续的搜寻任务中引导人们的注意力。Koch and Ullman18 提出了一个前馈模型来组合这些特征,并引入了 saliency m
7、ap 的概念,saliency map是表示场景位置突出性的地形图。他们同时引入了一个 winner-take-all 神经网络,这个网络选择最显著的位置,利用返回抑制机制使注意力焦点移向下一个最显著的位置。一些系统随即创建出来,利用相关模型来处理数字图像151617。Koch&Ullman 模型的第一个完整的实现以及验证由 Itti 等人14提出(见图 2),并应用于人造场景和自然场景。从此以后,这个领域受到持续的关注。基于不同对注意力模型的假设的各种各样的方法涌现出来,并在不同的数据库上进行验证。在接下来的章节中,我们提出一个统一的概念框架,在这个框架下我们将讨论每个模型相比其他模型的优点
8、和缺点。我们将给作者深入的分析关于注意力模型的当前技术的发展,确定当前依旧面临的问题。对注意力建模的主要关注点在于如何,何时以及为什么我们选择行为相关的图像区域。由于这些原因,提出了一些定义和计算视角。一个通用的方法是从前期人类视觉系统(early human visual system)的解剖学和功能性来获得灵感(比如141516191)。另外,一些研究假设视觉注意力服从那些函数,并将它形成一个计算框架。比如,大家一致认为视觉注意力能吸引更多的信息144,更多的意想不到的场景区域145,或者关于一个任务的最大化回报109。1.3 经验基础注意力模型通常通过观测者的眼球运动来验证。眼球运动传达
9、了关于认知过程的重要信息,比如阅读、视觉搜索和场景感知。因此,他们通常被看做是注意力转移的表达方式。比如说,在场景感知和视觉搜索中,当激励比较混乱时,注意点会变得更长,同时扫描线变得更短19。任务的难度(比如说全面阅读对主旨阅读,或者在场景中寻找人对用于记忆力测试的图像浏览)明显影响着眼球运动行为19。尽管注意力模型和眼球运动预测模型经常用眼球运动数据进行验证,但是在范围、方法、激励以及细节的层次上存在着细微的差别。眼球运动预测模型(扫描规划)试图理解注意力的数学支撑和理论支撑。一些实例包括搜索过程(比如优化搜索理论20,信息最大化理论21,Mr.Chips: 一个理想观测者的阅读模型21,E
10、MMA(眼球运动和注意力运动)模型139,控制眼球运动的 HMM 模型26 和约束的随即游动模型175)。为了这个目的,他们通常使用简单可控制的激励,同时另一方面,注意力模型利用启发的、认知的和神经特征的组合,以及机器学习和计算机视觉的一些工具,来解释在简单和复杂场景的眼球运动。注意力模型同时关注实际实用性。对于所有的眼球运动模型的综述超出了本文的范围。感兴趣的读者参考关于眼球运动的研究2223127 和眼球跟踪应用的宽度优先的调查 25。注意到眼球运动并不总是表示出真实的事实,而且存在着其他度量标准来衡量模型。比如,正确报告图中一次变化的准确性(也就是 search-blindness5),
11、或者预测能够被记住的那些视觉吸引东西,这些能显示出单独分析眼球运动所或略的注意力的重要方面。很多视觉搜索的注意力模型用精确估计反应时间(RT)(比如,RT/setsize slopes in pop-out and conjunction search tasks224191)。1.4 应用本文中,我们将关注描述模型本身。但依然有很多关于今年来提出的模型的技术应用,并对注意力模型的关注度会进一步的增加。我们对模型的应用分成三个类别:视觉和图形,机器人和图 3 所示的其他领域。1.5 本文的申明和组织注意力很难正式定义成一个被广泛接受的方式。然而,从计算角度来看,很多注意力模型(至少那些在自由注
12、视的眼球运动的前几秒上测试的模型)能被统一到以下的普遍的问题称述中。假设 K 个观察员看了 N 副图,令* 是眼睛注视点以及他们对应的时间*。对于第 i 副图的 k 个观察员的注视点的个数用*表示。注意力模型的目的是找到一个函数(stimuli-saliency map)*,这个函数最小化眼睛注视点预测的误差,也就是*。这里一个重要的点是以上的定义更好的符合自下而上显式注意力模型,也许并不总是覆盖视觉注意力的其他方面。(比如显式注意力或者 top-down 因素),这些不能用眼球运动来解释。这里我们对主要的应用于任意图像的注意力模型进行系统的综述。第二章将介绍分类这些模型的几个因素。在第三章,
13、我们根据这些因素总结和分类视觉模型。第四章讨论这些模型的局限性和所遇到的问题。第五章对全文进行总结。2 分类标准我们从引入 13 个标准 f1.f13 开始,这些标准将用来对注意力模型进行分类。这些标准都源于注意力在行为和计算方面的研究。一些标准描述了模型(f1,f2,f3),其他的(f4.f7,f12 ,f13)并不直接相关,但是他们对于觉得这些模型的实用性非常重要。2.1 Bottom-up VS Top-down 模型模型之间一个主要的差别是他们是否依赖 bottom-up 因素(f1),top-down 因素(f2)或者是二者的组合。Bottom-up 因素主要基于视觉场景的特性(激励
14、驱动)75 ,而 top-down 因素(任务驱动)由认知现象如知识、期望、奖励和当前任务决定的。由 bottom-up 方式吸引我们注意力的感兴趣区域必须充分地不同于与其周围特征。这种注意力机制同样叫做外在的,自动的,灵活的或者周边的因素78。Bottom-up 注意力是快速的,无意识的,并最可能是前馈的。 一个典型的 bottom-up 注意力的例子是看一副在有很多条垂直条纹中只有一条水平条纹的场景图中,注意力马上就会被吸引到水平条纹上81。尽管很多模型属于这一类型,他们仅仅解释了眼球运动的一小部分,因为大多数注视点是由任务驱动的177。另一方面,top-down 注意力比较慢,任务驱动,
15、有意识的和闭合回路的77。top-down 注意力最著名的例子是来源于 1967 年的 Yarbus79,他展示了依靠当前任务的眼球运动的如下实验:测试者要求在不同的条件(问题)下看同一场景(在有一家人的房屋中,一个不速之客进入房间),这些问题包括:“估计这个家庭的物质环境” ,“人们的年龄是多少 ”,或者简单的仔细观察场景。对于以上不同的例子,眼球运动明显不同。模型探索了三个主要的针对特定问题的 top-down 因素的来源,这个问题是:我们如何觉得看哪里?一些模型解决了视觉搜索中,注意力被吸引到我们要寻找的物体的特征上这样的问题。另外一些模型探讨了我们在场景中看到的位置的内容或者主旨(gi
16、st)的角色。在某种情况下,很难准确的说我们在场景中看哪或者看什么,因为由一个复杂的任务管理眼睛的注视点,比如在开车的过程中。虽然原则上,任务要求注意力包含其他两个因素,在实际中,模型往往分开关注他们。场景布局也被看作是 top-down 注意力的一个来源8093,并在这里与场景内容一起考虑。1), 物体特征。有相当多的关于在现实世界搜索任务中存在目标驱动的注意力指引(attention guidance)的证据84852383。在经典的搜索任务中,目标特征在一个无处不在的注意力指引的来源818283。考虑在简单的目标箭头是红色的箭头簇中搜索:注意力快速地指向那个红色的箭头。拿这个与更负责的目
17、标物体做比较,比如说自然情景中的行人,这种情况下尽管很难定义目标,但是依然存在一些特征(比如直立形式,圆头,直直的身体)指引视觉注意力87。引导搜索理论82提出注意力能够偏向于感兴趣的目标,通过调整贡献于注意力的不同特征的相对增益。回到我们以前提出的例子中,当看一个红色的物体,一个很高的增益赋给红色。Navalpakkam 等人51提出优化特征组合(BU 显著模型 14的通道)按照最大化目标与背景的信噪比来检测目标。在50中,将一个基于物体唯一性的准则的加权函数,在将每幅图加起来之气,作用到每幅图中来定位物体。Butko 等人161 基于由 Najemnik 等人20 在一个特定中进行人脸检测
18、和跟踪的观察框架中陈述的相同的视觉搜索原理,构建物体搜索模型,但是他们没有利用这么模型解释在搜索人脸中眼睛注视点。Borji 等人89用进化算法在一个基本的显著模型参数空间中搜索来寻找目标。Elazary 和 Itti90提出了一个模型,该模型中 top-down 注意力能调整首选特征(比如一个特定的灰度)和调整特征检测器的宽度,从而给出相比调节固定特征检测器的增益模型而言很灵活的 top-down 调整模型。最后但是并不是不重要的研究包括147215141 ,他们都是从制定目标物体搜索的方法出发提出一个显著性度量方法。前面提到的关于在视觉搜索中物体特征的角色的研究与计算机视觉中的物体检测非常
19、相近。一些物体检测方法(比如 Deformable Part Model by Felzenszwalb 等人206和 the Attentional Cascade of Viola and Jones220)对于一些物体,如小汽车,人以及人脸有很高的检测率。与认知模型相比,这类方法通常是纯计算方法。关于这两个领域如何相关的研究将可能对双方领域都带来好处。2)场景内容。当简要的展示一副图时(小于或等于 80 毫秒),一个观察者通常能够描述场景的核心特征17671 。这是一个非常粗糙的场景表示,通常叫做“主旨 gist”,不包含单个物体更多的细节信息,但是能够提供足够的粗糙场景区分信息(比如室
20、内场景和室外场景)。意识到这点很重要:gist 并不显示场景的语义类别。Chun and Jiang91证明了那些位于相对一些背景重复出现的结构中的物体能够很快的被检测到71。在特定场景中物体间的语义关联(比如电脑通常在桌子上)或者内容信息同样在指引眼球运动中起着重要的角色19984。已经存在一些关于利用不同类型的底层特征的 gist 模型。Olive and Torralba93在图像上计算非重叠窗函数傅里叶变换的幅频。他们接着利用主成分分析(PCA)和独立成分分析(ICA )来降低特征的维度。Renninger and Malik94对输入图像利用 Gabor 滤波器过滤,利用 K-mea
21、ns 聚类算法从训练库上提取 100 个普遍的 taxtons。他们的 gist 特征是这些普遍taxtons 上的直方图。 Siagian and Itti95用生物学的中心-周围区域对比,在方向,颜色和灰度通道特征上对 gist 建模。Torralba92用小波分解调节6 个方向和 4 个尺度。为了提取 gist,通过在 4*4 方上的录波器响应求平均值形成向量。同样,他利用 PCA,将 384 维向量降至 80 维 gist 向量。对于gist 的比较,请参考9695。Gist 的表达方式逐渐在计算机视觉领域内边的流行起来,因为他们提供了丰富的全局区分信息,对很多应用非常有帮助,比如当今
22、大规模场景数据库上的搜索116,将搜索缩小到包含感兴趣物体的区域9287 ,场景实现205,和 top-down 模型建模101218。因此可以看出这个方向的研究具有很大的潜力。3)任务需求。任务对于注意力的部署具有很大的影响79。据说视觉场景可以解释为基于需求的方式执行需求的任务97。Hayhoe 等人99指出当处理复杂任务时视觉感知和眼球运动之间存在着很强的联系。测试者执行视觉导向的任务时,通常发现他们将更多的注视点导向那些与任务有关的位置99。通常有可能推断出一个方法,测试员在内心中记住眼球运动的模式。比如说在“block-copying”任务中,测试员需要重现每个积木的组装方式,测试者
23、完成任务的方式就显示了眼球运动的模式【注:这段没太懂原文的意思】。测试员首先选择目标积木来在模型中确定其位置,然后关注工作区域的积木来在对应位置上放置新的积木216。其它研究探讨了在自然场景中 gaze 基于任务的行为,比如三明治制作,驾驶汽车,板球运动,和行走(见 Henderson and Hollingworth177,Rensink178,Land and Hayhoe135, and Bailensen and Yee179)的高层因素。Sodhi 等人180研究了在驾驶中的一些分心行为,比如调节音频音量或者接电话,对眼睛运动的影响。流行的观点是 bottom-up 和 top-do
24、wn 注意力组合影响着注意力行为。一个组合方法应该能够解释何时以及如何趋向一个 top-down 视觉物体,或者跳过它,由于底层显著因素。最近,13提出了一个 Bayesian 方法解释了对于 top-down 注意力因素和对比或者方向的 bottom-up 因素进行最优组合方式。Navalpakkam 和 Itti80提出了一个任务驱动认知模型,包含这样的假设:用于解决任务的方向以及存在了。Peters 和 Itti101在游戏视频中学习了一个从场景的 gist 投眼睛的注视点的 top-down 映射。组合方式就是简单的BU 和 TD 模块的相乘。2.2 空间 VS 时空模型在实际世界中,
25、我们面临的视觉信息会发生持续不断的变化,由于自我中心或者外边世界的动态变化。视觉选择这时同时依赖当前的场景显著性和以前时间的累积知识。因此,一个注意力模型应该能够捕捉到那些在时空方式中重要的场景区域。在第三章中将有更详细的阐述,几乎所有的模型都包含了一个空域模块。我们能够从两种类型的对时域信息进行建模的 saliency 模型:1)一些bottom-up 模型用运动通道来捕捉吸引到移动激励的视觉注意力点119。最近,一些研究者开始进行时域对 bottom-up 的影响进行建模 143104105。2)另一方面,一些模型1092182625102试图捕捉任务的时空方面的信息,比如通过学习注意物体的序列或者任务过程中的行动序列。比如,注意力门模型 Attention Gate Model(AGM)183重点强调了注意力的时间相应性质和量化描述了人类往往注意的序列激励目标。图像的先前信息,注视点,注视点的图像内容信息,物理行为,以及其他传感器的激励(比如音频)用来预测眼球的下一运动点。加入时间维度,以及自然交互行为的现实性带来了一系列的在利用计算模型预测注意点的应用。用来建立视觉注意的时间方面的合适的环境是动态的,具有交互步骤的电影和游戏。Boiman and Irani122提出了用于从视频中进行不规则检测算法,