1、_基金项目: 国家自然科学基金资助项目(60673189)收稿日期: 2008-11-28 改回日期:2008-12-03第一作者简介: 1940.现为普适计算教育部重点实验室,清华大学计算机系人机交互与媒体集成研究所教授,博士生导师。目前他的主要研究领域为计算机视觉,人机交互,普适计算计算技术。IEEE 高级会员,CCF 会员。动作识别与行为理解综述徐光祐 曹媛媛 普适计算教育部重点实验室清华大学计算机科学与技术系 北京,100084)摘 要 随着“以人为中心计算”的兴起和生活中不断涌现的新应用,动作识别和行为理解逐渐成为计算机视觉领域的研究热点。本文主要从视觉处理的角度分析了动作识别和行为
2、理解的研究现状,从行为的定义和表示、运动特征的提取和动作表示以及行为理解的推理方法三个方面对目前的工作做了分析和比较。并且指出了目前这些工作面临的难题和今后的研究方向。关键词 以人为中心 动作识别 行为理解中图法分类号:TP391 文献标识码: A Action Recognition and Activity Understanding: A ReviewXU Guangyou, CAO Yuanyuan (Key Lab of Pervasive Computing, Ministry of Education, Department of Computer Science and Tec
3、hnology, Tsinghua University, Beijing 100084, China)Abstract As the “Human-centered computing” is getting more and more popular and novel applications are coming up, action recognition and activity understanding are attracting researchers attention in the field of computer vision. In this paper, we
4、give a review of the state in art of work on action and activity analysis, but focus on three parts: Definition of activity, low-level motion features extraction and action representation, and reasoning method for activity understanding. Furthermore, open problems for future research and potential d
5、irections are discussed.Keywords human-centered computing, action recognition, activity understanding引言计算正渗透和影响到人们生活的各个方面,根据传感器数据来识别和理解人的动作和行为就成为未来”以人为中心的计算 ”(Human-centered computing)中的关键 1。其中基于视觉的动作识别和行为理解尤为重要。因为在人之间的人际(interpersonal)交互过程中,视觉是最重要的信息。视觉可以帮助人们迅速获得一些关键特征和事实,如对方的表情、手势、体态和关注点等,这些视觉线索综合
6、起来反映了对方的态度,潜在意图和情绪等信息。未来人机交互和监控中,机器要感知人的意图很大程度上就需要依靠视觉系统。此外,视觉传感器体积小、被动性和非接触式的特点,使得视觉传感器和视觉信息系统具备了无所不在的前提。近年来,在对计算机视觉提出的层出不穷的新要求中,行为理解是一个具有挑战性的新课题,在诸如智能家居,老年人看护,智能会议室等应用中都起着至关重要的作用。它要解决的问题是根据来自传感器(摄像机)的原始图像(包括图像序列)数据,通过视觉信息的处理和分析,识别人体的动作,并在上下镜(context)信息的指导下,理解人体动作的目的、所传递的语义信息。行为理解作为近几年开始兴起的研究,正在逐渐获
7、得越来越多的关注。人体检测、定位以及人体的重要部分(头部,手等)的检测,识别和跟踪是人体行为理解的基础,在解决这些基本问题的基础上,更重要也更困难的问题就是动作识别和行为理解。对动作识别的研究可以追溯到 90 年代,在 2002 年,相关研究的论文数量经历了一个飞跃式的增长,这些研究大多假设是在结构化(structured)环境和孤立动作条件下。所谓的结构化环境就是预先设定和可人为控制的环境,例如,用于计算机输入的手势识别等,这时视觉数据采集的光照,视角,距离等因素都是固定或已知的。这就为改善视觉处理的脆弱性提供了有利条件。但与此同时,也带来了很大的局限性。例如,基于生理特征的生物特征识别,目
8、前的方法只适合于愿意在规定环境下给予系统配合的合作对象。与此相对,能在自然环境下,基于行为特征的生物特征识别就更为困难,但具有容易被对象接受,或不易被察觉的优点。对于各种目的的视觉监控来说,能工作在自然环境下,更是至关重要。例如,为帮助老人延长独立生活或改善生活质量的视觉监控和提示。都需要能在老人生活的日常环境提供相应的服务。近年来,对日常生活和工作中动作和行为的理解正成为热点。这是所谓的“日常活动”(Activities of daily living ,ADL )的分析和理解。由于人们在日常生活环境中的动作是自然和连续的,而且与环境有密切的联系,因此给识别和理解带来一系列具有挑战性的难题。
9、 1)分布式视觉信息处理方法和系统。通过多摄像机信息的融合来克服由于视角,距离,遮挡,光照等多种环境因素带来的干扰和不确定性是有效但也是富有挑战性的课题;2)自然连续动作和行为的分割及多层次模型。人类的日常活动和行为是人体自然和连续的动作,其中包含了多种类型的运动和动作:无意识的人体移动,为了操作物体的动作,以及为了进行相互交流,例如打招呼的,动作和姿态。此外复杂的人类活动和行为是由一系列动作或操作组成的。系统必在一个多层次的模型指导下对人体动作进行分割和分类。而分割和分类又需要有来自对动作和行为理解的高层模型指导;3)基于上下境( context based)的行为理解。对动作和行为的理解需
10、要了解当时视觉环境以及应用的情境。这也就是所谓的要具有“觉察上下境”(context aware)或基于上下境 ( context based)视觉处理和分析方法。因为,相同的动作在不同的情境下传递不同语义。上下境的指导作用体现在以下二方面: 1)在现实的视场中可能需要处理的视觉对象和任务非常多,而计算资源是有限的。此外还有实时处理的要求。这时必须根据上下境来确定视觉处理的关注点(focus of attention);2)在上下境的指导下对动作传递的语义进行推理。行为理解的研究包含着从底层到高层的多层处理。底层处理中的人体检测和跟踪、动作识别、手势识别和轨迹分析等已经有了较多的研究和综述。而
11、高层的处理方法,如对行为的建模、上下境在行为推理中的指导等研究还在起步阶段。本篇综述将重点讨论行为理解中的高层推理的研究现状。2.行为理解的研究现状如引言中所述,行为理解包含了从底层处理到高层推理的全过程,涉及底层运动特征的提取和表示、行为的表示方法、以及高层行为语义的推理模型。下面的综述首先从行为的定义开始,然后讨论特征提取和表示,最后分析常见的几种行为推理模型。2.1 行为表示的模型目前对于行为的表示还没有一个通用的模型,大部分的研究都是针对特定的应用采用某种行为表示模型,最常见的分层结构模型,而各个层次表示的内容取决于应用的需要。人体的行为就其目的而言可大致分为:1)与环境交互,例如对物
12、体的操作;Moeslund 2提出了 action/motor primitives, actions, and activities 的分层模型。在Park3驾驶员动作的表示模型中,底层为身体某个部位的运动,如头转动,躯干前移,伸胳膊等。中间层是由底层各部位的运动组合而成的一个复杂动作。最高层为人与周围设备的交互动作,即驾驶员对汽车部件的操作动作,如向左转动方向盘。2 )人际交互。Aggarwal 和 Park4在 2 人交互的分析中,把交互行为分为 3 个层次。最高层是交互行为;中间层为单个人体的动作;最底层是对身体某个部分运动的检测和识别。群体交互(group interaction)
13、,例如会议室场景更是需要多层次的表示 5。关于行为的分层表示方法还可参考2,3,4,6,7,8,9,10。其中特别需要注意的是 Gonzalez7在动作- 行为的层次表示中增加了情境(situation) 。情境可认为是最高层的上下境,它用于解决行为理解的歧义问题。比如挥手这个动作在“足球赛”和“地铁站”这二种情境中显然是有不同的含义。综上所述,分层模型已经成为研究者们公认的一种行为的表示方法,只是在不同的研究背景和任务下,层次的数量和每个层次的定义各不相同。得到较多认可的表示模型大致包括如下几个层次:运动(movement ), 动作(action ) ,活动(activity)或操作(op
14、eration),行为(behavior) 。这些层次大致是按照时间的尺度来进行分割的。但这样的分层方法在复杂的情况下,有时显得无能为力。更为实用的是按照任务过程进行分解。例如,老人在厨房中的做饭活动,它可分为:取食品,处理食材,烹饪,上菜等过程。其中每个步骤,又可进一步分解,例如,烹饪又可按菜谱分为若干步骤。这样的分解是应用导向的。作为一个表示模型除了定义各层表示的含义以外还需要定义它们之间的关系和运行机制。Crowley 11提出了情境网络(network of situation)的运行框架。我们提出了一个基于多层次“上下境-事件”的模型 5。认为行为的层次结构中,上层的行为,就是下层动
15、作定义的环境,所以就是上下境。它定义了什么是下层中发生的有意义的动作,即事件。相邻层次之间的“上下境-事件”关系可递归地延伸到所有的层次。所以这个模型具有通用性。2.2 运动特征的提取和动作表示视觉或者其他底层运动特征的提取和表示是进行高层行为理解的推理所必需的基础工作。较早开始的对动作行为分析的工作很多是采用主动传感器来获得人体某个部位的运动信息 12,13,14,15,16。这类工作主要是通过人体的四肢或躯干佩戴的各种传感器来获取该部位的运动特征,然后动作行为进行分析,由于当前以人为中心的计算强调用户感觉自然,嵌入式的传感器破坏了用户的感受,给用户的行动造成不便,因此,目前越来越多的研究开
16、始转向用视觉这种非嵌入式被动的传感器获取人体的动作特征。基于视觉的动作表示按特征的性质大致可以分为两类,一类是基于三维特征,另一类是二维图像特征。基于三维特征具有视角不变性,适用于分布式视觉系统下的动作体态表示。Campbell 17等人提出的基于立体视觉数据的三维手势识别系统。Jin 18建立了基于三维模型的动作识别系统。三维模型通常参数多,训练复杂,计算量大。如果是基于立体视觉的原理还可能要遇到匹配中的对应性(correspondence)困难。相比之下,基于二维图像特征的表示计算相对简单,适用于视角相对固定的情况。下面具体介绍一些基于二维特征的动作表示。Liu19只对坐,站,躺几个日常生
17、活中最基本的动作做了分析。他计算了前景区域每个像素的距离投影(distance projection)(1)(,)(M1i21i2cici VHDP其中, 和 表示前景像素在水平和竖直iV方向上的坐标, 和 表示前景中点的坐标,cM 是前景像素点的个数。每一个动作都用距离投影的高斯分布来表示。这种特征抽取方法是视角相关的,文中使用了与人体朝向成 90的固定视角。这个视角上最容易抽取出区分度大的人体形状特征。Niebles20把每个动作的一系列视频帧都看做是一组特征描述词的集合,特征描述词通过提取时空兴趣点得到。文中定义响应函数如下(2)2*)()( odevhgIhgIR其中, 是二维高斯平滑
18、核函数,应),(yx用在空间维度上,h ev 和 hod 都是一维 Gabor 滤波器,分别定义为 和2/)(,; tev ecxt并运用在时间维2/)sin(),;(todt度上。一般情况下,复杂动作发生的区域会产生较大的响应,局部响应最大的点作为兴趣点。并用梯度或者光流来描述。Park3用多高斯混合模型表示人体 5 个主要部分(头、脸、胳膊、躯干和下身)的颜色分布,并用椭圆拟合,Kalman 滤波器随时对参数进行更新。动态贝叶斯网络被用来检测动作和姿态,驾驶员行为被用一个表达式表示,表达式组成 如下:agent-motion-target,其中 agent 表示动作实施者,如头、手等;mo
19、tion 表示动作;target 表示驾驶室的操作仪器。Chung21用水平和竖直方向上的一对投影来表示当前的体态;Robertson 22采用了基于光流的动作描述子来描述动作,继而与样本集中样本逐个匹配来识别动作类型;Turaga 23也是提取光流作为每一帧中动作的特征;Ryoo 24用人体外框的长、宽和中心点的坐标被作为特征。Wang 25在办公室异常行为识别的研究中对提取出的人体区域采用R 变换 26,提取动作形状, R 变换具有尺寸和旋转不变性,可以应对人离摄像机距离不同造成的尺寸变化。以上这些工作都是在固定视角下用二维运动特征表示动作。这时可在最有利的视角观测动作,但也限制了对象的活
20、动范围,使它难以适应实际应用的环境。因为现实生活中,观测对象活动范围较广,位置变化大,导致视角多变;同时由于生活环境中的家具等也会对人体造成遮挡。因此需要分布式视觉系统的支持,通过多摄像机信息的融合来克服由于视角多变,活动范围广以及遮挡带来的各种问题。这是富有挑战性的难题。基于人体特征例如人头或四肢的运动特征将可简化信息融合和动作分析。Kim 26是在分布式环境下检测人体的躺,站,坐等简单动作,通过自适应的背景相减得到前景区域,然后用椭圆拟合和 omega 曲线头肩部检测算法检测头部,在任何时刻,所有的摄像机都会进行全部的底层处理,得到人体的高度,人体位置,头部位置,人体长宽比和手部的位置,一
21、个专门的模块将负责从每个摄像机处理的结果进行人的匹配,并选出没有遮挡的处理结果作为行为理解的观测向量。再如Park13在分布式视觉系统下研究两人交互的行为,文中考虑到了视角对动作特征抽取带来的影响,因此首先讨论了摄像机选择的问题。他根据不同摄像机得到的前景区域的离散度选择最佳视角,可以理解为选择像平面中两人距离最大的视角,因此避免了遮挡问题。将分割出的人体区域在水平方向投影,计算得到人体的中轴,然后人体被按照一个指定参数分割为头,上身和下身三个部分。用 HSV 颜色空间表示每个像素点,用混合高斯模型表示身体的三个部分。可以同时分析上身和腿部的动作。而在不同视角下检测人体特征本身也是一个困难的问
22、题,这是这种方法需要付出的代价。除了上述由于成像环境限制造成的困难以外,现实生活中的很多动作,例如厨房中的烹饪操作,很细微,难以单独依靠视觉来检测和识别。而动作所使用的工具或接触的物体将可提供关于动作明确的线索。因此有学者提出了根据使用的物品(object-use)来协助识别对象动作。如果我们知道装面包的容器被使用了,这往往比识别到人伸手拿东西这个动作蕴含更多的语义。Wu 27将水壶、电话、果汁等 33 个物品贴上电子标签(RFID ) ,并在用户的手腕上带上接收器。当用户使用某个物品时,接收器就会接收到该物品上电子标签发出的ID 信号。通过对使用物品的分析能够识别出烧水,打电话,喝果汁等 1
23、6 种行为。Wang 28也类似地充分利用了关于“所使用物品”的“常识”对行为理解的指导意义,通过在物品上贴 RFID,手腕上带接收器来获得物品使用信息。另外有一些工作 29,30,31认为人的轨迹甚至人在某个功能物体(如冰箱、沙发等)附近停留的时间可以用来解释人的行为,这样的假设就完全避开了复杂困难的动作分析以及传感器对人体造成的不便,在这类工作中,环境上下境信息和场景知识受到极大重视,成为进行行为理解推理所依赖的重要线索。2.3 行为理解的推理方法行为理解的推理中广泛采用了基于图模型的推理方法,如隐马尔科夫模型(HMM ), 动态贝叶斯网络(DBN ) ,条件随机场(CRF)等;也有的研究
24、采用其他的推理方法,如 14使用基于规则的决策树来对一系列表示动作及对象的三元表达式进行分类。 32,33采用模板匹配的方法,将检测到的运动特征与训练好的样本逐个匹配,匹配的结果即为对行为识别的结果。 31使用了有限状态自动机,每个状态表示当前人体的位置,来对人的轨迹进行分类,识别异常事件。在目前的行为分析领域中,隐马尔科夫模型(HMM )是较常使用的一种推理模型 34,35。HMM是一种有效的时变信号处理方法,它隐含了对时间的校正,并提供了学习机制和识别能力。根据不同应用环境下行为的特性,很多研究对 HMM 进行了适应性扩展,比如 Hierarchical HMM, Coupled HMMs
25、36, Parameterized-HMMs37等。大部分的模型采用了分层的结构来对应行为的分层特性。 38在群体交互动作识别中采用两层 HMM 模型,下层模型对群体中的个体进行动作识别,识别结果作为上层群体行为识别模型的观测。 39也采用了分层的模型分析行为,由三层在不同时间粒度上依次增加的 HMM 组成。HMM 虽然是对时间序列建模的一种简单而有效的模型,但是当行为变得复杂或者在长时间尺度上存在相关性,就不满足马尔可夫假设, 27同时考虑了行为的分层结构和状态的持续时间,提出了Switching Hidden Semi-Markov Model (S-HSMM),是 HSMM 模型的两层扩
26、展,底层表示了自动作及其持续时间,高层表示了一系列由底层自动作组成的行为。文中给出的实验结果证明了比 HSMM和 HMM 对行为具有更强的模型表示能力。也有研究将动态贝叶斯网络(DBN)引入到行为理解中 404142。由于 HMM 在一个时间片断上只有一个隐藏节点和一个观测节点,在一个时刻需要将所有的特征压缩到一个节点中,那么所需要的训练样本将是巨大的(相当于联合概率密度函数);而 DBN 在一个时间段上是任意结构的贝叶斯网络,可以包含有多个因果关系的节点,即用条件概率来形成联合概率,训练相对要简单,也给模型的设计提供了更大的灵活性,能够更准确的表达状态之间以及状态和观测之间真实的关系,但是设
27、计起来要比 HMM 要复杂。 43对 DBN 和分层的 HMM 做了详细的比较并且给出了模型选择和表示时需要考虑的几个因素:1 )可用于训练和测试的数据;2)变量被观测到的可能性;3 )数据之间的内在关系;4)应用的复杂度。也有些研究放弃了产生式模型而采用区分式模型来分析行为。 44首先采用采用了条件随机场模型(CRF)用于行为识别,考虑到 HMM 最大的缺点就是输出独立性假设,导致不能考虑上下境的特征,限制了特征的选择。但是实际情况是,行为的当前状态往往与一个长的时间尺度上的观测存在相互的依赖,并且观测之间很可能不是相互独立的。CRF 不需要对观测进行建模,因此避免了独立性假设,并且可以满足
28、状态与观测之间在长时间尺度上的交互。结合产生式模型和区分式模型的优势对行为理解进行推理将成为未来的研究方向。3 总结和展望以上对动作识别和行为理解的现状做了简要的综述,但就建立能在复杂的现实世界中提供有效服务的计算机视觉系统而言,还缺少了二个关键的部分,这就是:1)如何从复杂的现场背景下快速,可靠地检测和识别人体(物体) 。物体在现实世界中的位置和光照情况多种多样甚至还有遮挡,但人类还是能在混乱的场景中快速地检测和识别各种物体。这是目前的机器视觉远未达到的能力。视觉认知,计算机视觉和认知神经科学的文献中有很多证据说明上下境(context)信息极大地影响搜索和识别物体的效率 45,46。上下境
29、的影响是多层次的,其中包括:语义层(例如,桌子与椅子经常出现在同一图像中);空间构造层(例如,键盘一般是在显示器的下方);姿态层(例如,椅子通常是朝向桌子;汽车一般是沿着道路方向停靠)等。研究还证明空间上下境可为场景预测中可能发生的动作提供有用的线索 47。总之,基于上下境的视觉关注机制(attention)是解决上述困难的关键;2) 上下境指导下的行为理解。生活中人体动作的语义不仅取决与本身的状态而且取决于场景中其他人和物体的当前和历史的状态,也就是取决于上下境。相同的动作在不同的上下境中代表着不同的语义,这在会议这样的群体交互场景下尤为突出 5。例如, “举手”的动作,在“大会报告”的场景
30、下,表示“希望提问” ;在“会议表决”时表示决定的取向等。以上二个关键问题都涉及如何在视觉计算感知和利用中上下境信息。这也就是当前所谓的基于上下境的视觉(context based vision)和觉察上下境的视觉(context aware vision)方法。从视觉处理的策略来说,目前大多数都是采用自底向上的,从局部到整体的方式,而基于上下境的视觉处理是采用自顶向下,从整体到局部的方式。这在一定程度上反映了人类视觉系统的处理方式。因此,这是重要的值得注意的研究方向。由于篇幅限制对这个问题只能在此做简要的介绍。参考文献(References)1 Alejandro J, Daniel G P
31、, Nicu S, et al, Human-centered computing: toward a human revolution J. Computer, 2007, 40(5):30-342 Moeslund T B, Hilton A, Krger V. A survey of advances in vision-based human motion capture and analysis J. Computer Vision and Image Understanding. 2006, 104(3): 90-126.3 Park S, Trivedi M. Driver ac
32、tivity analysis for intelligent vehicles: issues and development framework A, In: Proceedings of IEEE Intelligent Vehicles SymposiumC, Las Vegas, Nevada, USA, 2005:644- 649.4 Aggarwal J K, Park S., Human motion: modeling and recognition of actions and interactionsA, In: Proceedings of Second Interna
33、tional Symposium on 3D Data Processing, Visualization and TransmissionC, Thessaloniki, Greece, 2004: 640- 6475 Dai Peng, Tao Lin-mi, Xu Guang-you. Audio-visual fused online context analysis toward smart meeting roomA,In: Proceedings of International Conference on Ubiquitous Intelligence and Computin
34、gC, Hong Kong, China, 2007: 11-13, 6 Bobick A, Movement, activity, and action: the role of knowledge in the perception of motionA, Philosophical Transactions of the Royal Society of London, 1997, 352(1358):12571265.7 Gonzalez J, Varona J, Roca FX, et al. a Spaces: action spaces for recognition and s
35、ynthesis of human actionsA, In: Proceedings of International Workshop on Articulated Motion and Deformable ObjectsC, Palma de Mallorca, Spain, 2002: 2123,.8 Jenkins O C, Mataric M. Deriving action and behavior primitives from human motion capture data A. In: Proceedings of International Conference o
36、n Robotics and AutomationC, Washington DC, USA, 2002: 2551 - 25569 Nagel H H., From image sequences towards conceptual descriptions J. Image and Vision Computing 1988, 6 (2) : 5974.10 Mori T, Kamisuwa Y, Mizoguchi H, et al. Action recognition system based on human finder and human tracker A. In: Pro
37、ceedings of the 1997 IEEE/RSJ International Conference on Intelligent Robots and SystemsC, Beijing, China 1997:1334 - 134111 Crowley J L, Coutaz J. Context aware observation of human activity, multimedia and expo A. In: Proceedings of IEEE International Conference on ICME 02C ,Lausanne, Switzerland,
38、 2002: 909- 912 12 Park S, Kautz H. Hierarchical recognition of activities in daily living using multi-scale, multi-perspective vision and RFID, A, In: Proceedings of 4th International Conference on Intelligent EnvironmentsC, Seattle, OR,USA,2008: 1 - 413 Ward J A, Lukowicz P, Troster G, et al. Acti
39、vity recognition of assembly tasks using body-worn microphones and accelerometersJ, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006,28(10): 1553 - 156714 Yin J, Yang Q, Pan J J. Sensor-based abnormal human-activity detectionJ, IEEE Transactions on Knowledge and Data Engineering,
40、 2008,20(8): 1082 - 109015 Yang S I, Cho S B. Recognizing human activities from accelerometer and physiological sensors A. In: Proceedings of IEEE International Conference on Multi-sensor Fusion and Integration for Intelligent SystemsC ,Seoul, Korea, 2008: 100 - 10516 Purwar A, Jeong D U, Chung W Y.
41、 Activity monitoring from real-time tri-axial accelerometer data using Sensor networkA. In: Proceedings of International Conference on Control, Automation and SystemsC, Seoul, Korea, 2007: 2402 - 240617 Campbell LW, Becker DA,. Azarbayejani A, et al. Invariant features for 3D gesture recognition A.
42、In: Proceedings of International Conference on Automatic Face and Gesture RecognitionC, Killington, Vermont, USA 1996: 157-162.18 Jin N, Mokhtarian F. , Image-based shape model for view-invariant human motion recognitionJ, IEEE Conference on Advanced Video and Signal Based Surveillance, London, UK,
43、2007,: 336 - 34119 Liu C D, Chuug P C, Chung Y N. Human home behavior interpretation from video streams A. In: Proceedings of the 2004 IEEE International Conference on Networking, Sensing 2005: 955- 960 31 Mahajan D, Kwatra N, Jain S, et al. A framework for activity recognition and detection of unus
44、ual activities A. In: Proceedings of Indian Conference on Computer Vision, Graphics, Image Processing CKolkata,India,2004:37-4232 Dollar P, Rabaud V, Cottrell G, et al. Behavior recognition via sparse spatio-temporal features A. In: Proceedings of 2nd Joint IEEE International Workshop on Visual Surv
45、eillance and Performance Evaluation of Tracking and SurveillanceC, Beijing, China, 2005: 65 - 7233 Liu C D, Chuug P C, Chung Y N. Human home behavior interpretation from video streams A. In: Proceedings of IEEE International Conference on Networking, Sensing & ControlC, Taipei, China, 2004: 192 - 19
46、734 Xu G, Ma YF, Zhang HJ, et al. Motion based event recognition using HMM A. In: Proceedings of IEEE International Conference on Pattern RecognitionC, Quebec, Canada, 2002: 831 - 834 35 Sun X D, Chen C W, Manjunath B S. Probabilistic motion parameter models for human activity recognition A. In: Pro
47、ceedings of International Conference on Pattern RecognitionC, Quebec, Canada, 2002: 443 - 446 36 Brand M, Oliver N, Pentland A. Coupled hidden Markov models for complex action recognition A. In: Proceedings of International Conference on Computer Vision and Pattern Recognition , Puerto Rico, 1997 :
48、99499937 Wilson A, Bobick A. Recognition and interpretation of parametric gesture A. In: Proceedings of International Conference on Computer VisionC, Bombay, India,1998: 32933638 Zhang D, Gatica-Perez D, Bengio S, etal. Modeling individual group actions in meetings: a two-layer HMM framework, A. In:
49、 Proceedings of IEEE CVPR Workshop on Detection and Recognition of Events in VideoC, Washington, DC, 2004: 117- 12539 Olivier N, Horovitz E, Garg A. Layered representations for human activity recognition A. In: Proceedings of IEEE International Conference on Multimodal InterfacesC, Pittsburgh,MA,USA, 2002: 3-840 Luo Y, Wu T D, H