1、基于稀疏表示的多姿态人脸合成与识别摘 要:姿态问题因其带来的光照、遮挡、非线性尺度变化,成为了影响自动人脸识别效果的瓶颈。如何去衡量不同姿态的人脸图像下的相关性,是解决多姿态人脸识别问题的关键。本文通过字典学习与稀疏表示的方法,联合训练正脸姿态和非正脸姿态字典,保证同一对象两个姿态样本的稀疏表示系数相同,通过稀疏表示系数的相似性来衡量不同姿态的人脸的相似性。通过以上的相似性,本文提出了多姿态的人脸合成算法,并分别设计了基于合成人脸和稀疏表示系数本身的姿态鲁棒人脸识别系统,通过在 CMU-PIE 多姿态人脸数据集的实验,证明了本文方法在处理多姿态人脸识别的有效性。Abstract:Pose va
2、riations which bring illumination change, occlusion and non-linear scale variations, is the bottleneck influencing performance of automatic face recognition system. How to measure the similarity among samples under different poses is a key problem. In this paper, we propose a new approach to measure
3、 correlations between different poses via sparse representations. Based on dictionary learning and sparse representation techniques, we jointly train frontal and non-frontal dictionaries so that samples of one object under different posesown the same sparse representations. Therefore, via sparse rep
4、resentations of two dictionaries, we get the similarity measurement between different poses. By sparse coding, we propose a new frontal face synthesis algorithm and build two pose invariant face recognition systems based on virtual frontal face and sparse representationsimilarities respectively. The
5、 experiment results on multi-pose subsets of CMU-PIE database show the efficiency of the proposed method on multi-pose face recognition.关键词:稀疏表示;多姿态人脸识别;人脸合成;字典学习Key words:Sparse Representation;Multi-pose Face Recognition;Face Synthesis;Dictionary Learning1 引言近年来,随着研究的不断深入,自动人脸识别技术得到了高速的发展,一些最新的人脸识别
6、算法,在可控外部环境条件下,已经能够达到了较高的识别速度和识别精度378910。然而,对于目前大多数人脸识别算法,一旦一些外部因素(如被测者的姿态、表情,光照环境)产生了较大的变化,将会的导致人脸识别精度的显著下降1。然而,以上的一些变化,在真实世界的人脸识别应用领域几乎是不可避免的。如何对以上外部因素进行建模,并设计开发对这些外部因素鲁棒的人脸识别算法,成为了最近十年人脸识别研究的重点。而被测者姿态的变化问题,又成为了影响人脸识别的最难以处理的外部因素。由于人脸作为一个高度非刚性物体的特殊性,姿态的变化,往往带来了,旋转、位移、遮挡、光照变化等诸多非线性变换。在不同的视角下,一些脸部区域与被
7、测者的角度、距离均产生了明显的变化,甚至被遮挡。由于在现实应用中,往往不能将多个姿态均存入数据库。因此,只有快速准确的进行姿态矫正,或者提取姿态不变的信息,找出不同姿态下的相似性度量,是解决人脸识别中的姿态问题的有效方法。许多研究致力于解决人脸识别中的姿态变化问题。早期解决姿态变化问题,主要是通过一些 2D 表观模型的形变,获得不同姿态下的关键特征的匹配。最具代表性的有 Wiskott等人的弹性图匹配算法(EBGM)2。该算法通过在手动选取的对应特征点上的 Gabor 小波元素集的度量与特征点之间的几何信息,构造了束图,从而获得不同姿态下对应特征点的相似性。Castillo 等人使用立体匹配的
8、方法,通过 3 或 4 个关键点,获得人脸图像的核面几何构造,计算不同姿态下人脸的相似程度11。Prince 等人提出了约束因素分析方法,将姿态建模视为约束因素,将姿态变换下的表观个体表观差异视为高斯噪声,通过 EM 算法,估计姿态变换,同时通过后验概率度量对噪声参数进行匹配,从而达到了识别的目的12。Chai 等人通过圆柱模型来近似人脸,获得正脸和侧脸的块匹配,对于每一个子块,进行训练样本的线性回归,获得了某姿态正脸到侧脸的映射关系,从而重建虚拟正脸5。Li 等人通过典型正则分析(CCA),分别将维度不一致的正脸和侧脸空间,投影到中介子空间中,通过在该子空间中的相似性度量,获得了正脸和侧脸的
9、相似性度量6。Blanz 等人使用了200 余个 3D 激光扫描图像,建立了 3D 可变模型,通过匹配的特征点,将该模型匹配到具体的人脸图像,通过模型视角的变化,获得重建正脸图像4 。Gross 等人提出了基于表观的算法来解决姿态和光照问题,该方法的核心是为每个样本构建光线场,通过概率框架,来估计表观的变化14。Lucey 等人提出了基于通过简单配准的子块匹配算法15。基于流形空间方法的人脸识别,揭示了高维的人脸图像,可以被表示为具有代表性样本的稀疏线性组合10。最近,Wright 等人通过稀疏表示的方法,进行鲁棒人脸识别。在他们的工作中,他们将训练样本与遮挡因素当做联合字典集,通过 l1 范
10、数优化方法,获得了测试图像样本的稀疏线性表示,通过在字典集中,寻找最小重建误差的匹配子集,实现鲁棒识别。在图像超分辨率领域,Yang 等人通过联合训练高分辨率字典和对应低分辨率字典,使同一对象的不同分辨率图像,在两个字典中的稀疏表示相同。在重建过程中,计算待处理低分辨率图像的稀疏表示系数,并使用该系数对高分辨率字典元素进行系数的线性组合,获得高分辨率图像,达到了较好的复原效果13。在以上工作的启发下,本文在多姿态训练样本上,分别就不同的姿态,通过字典学习的方法,训练出用于稀疏表示的字典,同时通过约束其字典系数,是的对于同一样本的不同姿态,在对应字典上的稀疏表示相同。基于以上训练的字典,我们设计
11、了人脸合成算法,通过 l1 范数最小化,计算待测人脸对应姿态字典的稀疏表示,通过该稀疏表示,对其余姿态进行重建,从而获得了合成的多姿态人脸图像,使用合成图像和现有的单一姿态人脸识别算法,实现了多姿态的人脸识别。此外,我们还设计了基于相似性度量的算法,直接将对应字典下的稀疏表示,当做姿态不变相似性度量特征,进行入库人脸与待测人脸匹配。通过在 CMU-PIE 多姿态人脸数据集的实验,以及与现有方法的比较,说明了本文方法在处理多姿态人脸识别方面,具有较高的有效性。2 多视角人脸成像模型给定正脸 3D 表面形态 ,由于大多数人脸的 3D 表面形态在整体上具有一定的相似fS性,因此可以看做均脸 3D 表
12、面形态 与形态差异“噪声 ” 之和:DfS其中 平行于人脸的法向量。正面视角中可以看到 垂直于观察者平面。可以看出,DD正面视角中 向观察者平面垂直投影无法带来任何变化。因此,一个正脸图像可以表示成为: ()()()ffIPSIPIS其中 是投影变换矩阵,通过 每个 3D 表面的点将投影到 2D 观察者平面,而 为P I2D 平面上某点的密度值。在某个旋转角 下的 3D 表面形态 为:thea()theaftheatheattSRSDSR由于人脸表面能够被看作一个 Lambertian 表面,其纹理密度的变化不随着视角的改变而改变。然而,由于人脸表面的非线性结构,将会为成像带来遮挡和扭曲。这些
13、变化能够被分为两部分:1、由 3D 均脸表面形态带来的变化, 2、由个体差异带来的变化。()()()theatheatheatheafIPSISIE其中 为因 3D 均脸表面非线性带来的遮挡和扭曲。 为个体表面形状差异导致的遮挡。为了从侧脸得到重建正脸,或得到姿态不变的相关性度量,我们需要估计对 和 做出估计。由于在相同的非线性人脸表面下,特定姿态的扭曲与遮挡是相同的,也就是说,点集映射 在不同的样本中具有可加性。此外, 3D 均脸非线性结构带来的整体差异相比,由于个体差异带来的扭曲较小,且作用范围较为局限,因此,我们只考虑个体差异带来的遮挡,而该种遮挡仅出现在图像的一小部分中。从上面的分析可
14、以得出,同一对象在不同姿态下的人脸图像之间的非线性变化,可以看做变换 和稀疏非线性误差 。E给定正脸和侧脸训练集 与 ,,1,2,3,.ffffnAII,1,2,3,.theanAII其中为训练样本数目 , 和 分别为正脸图像和某角度 下的侧脸图像。对于任何角n,i,fi度 下的侧脸图像,能够近似成为训练样本的线性表示:,1,2,.t nIxIxI其中, 。根据以上的讨论,我们能够得到对应的正脸图像表示:12(,.)Tnx,()()fttIAt tE由于 具有可加性,正脸图像可以表示为:1, ()()ft f fIAxxEt t3 基于稀疏表示的正脸合成3.1 基本思想对于给定正脸和侧脸词典
15、, ,具有如下的性质,即对同一对象的在对应姿态的图0D像,在字典中的稀疏表示系数相同。对于某个个体输入侧脸图像 ,在侧脸字典 上的,tID稀疏表示系数可以通过如下 l1 范数最小化方法计算: 2,1argmin,.tstDIxx该问题的最优解可以通过凸优化方法计算。本文中 l1 范数最优化问题,均采用的方法进行计算。通过已获得的稀疏表示系数 ,我们能够得到估计的正脸图像 :0,tI0,0tIx下图为正脸重建的基本思想与流程:= +=侧脸图像稀疏表示重建正脸 真实正脸图:正脸图像重建的基本思想3.2 基于 3D 表面的图像块匹配由于人脸表面形态高度非线性,将人脸整体当做字典元素,会带来局部形状和
16、纹理的失真。因此,我们将图像分成了不同的小块,对每个小块建立对应的字典。在测试环节下,通过计算每个小块的字典系数,可以方便的重建出人脸图像。同时,为了提高合成人脸的光滑度,以及防止块状效应,我们使用了重叠法。在本文中,我们将正脸图像分成了的小块,对于每个小块,通过将均脸表面进行一定角度的旋转与投影,我们能够获得5每个小块在侧脸上的对应非线性图像块。很显然,由于遮挡和扭曲,侧脸上的图像块,具有不同的长度。基于 3D 表面的图像块匹配方法如下图所示:图:3D 表面模型辅助的多姿态图像块匹配3.3 引入对称信息的遮挡弥补正如我们在块匹配中看到的,正脸图像的一些部分在非正脸图像中,会产生遮挡与扭曲问题
17、。此类失真将会影响到正脸合成的精度。然而,在姿态问题中,被遮挡部分的对称部分尽管也有一定程度的扭曲,但在图像中能够无遮挡的显示。由于大多数人脸可以近似为一个对称对象,因此,我们使用对称部分的信息去对遮挡部分进行弥补。根据块匹配可以看出,被遮挡部分,导致侧脸对应图像块的长度下降。据此,我们得到了衡量被遮挡程度的度量函数: 00 00112 00, (,)(,)xy xyxyp pthea theap xRdRdyds 我们得到了带有对称约束的 l1 最小化问题:, s.t. ,01argminx 2,tAI 2,symtAI 引入 衡量块遮挡的严重程度的差异,使用拉普拉斯乘子,将不等式约束转化为
18、目,标函数: 2,0 1,00argintsymIAxxx 其中, 为块对称部分的镜像。这样,在遮挡严重的块矩阵,以较高的权重来参,symA考对称信息。3.4 联合字典学习由于,因为光照、表情、微小姿态差异等因素的影响,直接将训练样本充当字典,并能够满足两对应字典稀疏表示系数的严格相等。因此,我们希望通过联合字典学习的方法,同时训练正脸和侧脸字典,满足字典系数的严格相等性。给定训练图像样本 ,其中 为非正脸图像数据集的某个块,Y01,2,.nII为正脸图像数据集某个块。我们需要对于两个不同的姿态,分别训1,02,.nYII练字典 和 ,满足同一个被测者的不同姿态,在对应字典上的稀疏表示相等。目
19、标函D数的 l1 正则化可以表示为: 0, ,0102argmin,s.tD(i)=1XDXDFJYX 与 , , 12ri ,.t(i)XXF 以上两个目标函数可以结合成为: 0 0, , 0 1argin XDXDFFJYDX 22.()1,()stii 其中 , 分别正脸字典的第 i 列,该目标函数可以简化为:()i0i 12, , argmin,s.tD=FXDXDJYX 其中 , , 。其中 为了平衡长度不同的正脸图像0iY20L与侧脸图像块元素的权重。同时对于 ,该问题为非凸问题,然而,固定其中一个未,知量,对另一个未知量,该问题为凸问题。因此,可以通过反复迭代的方法,来计算最优化
20、的值,算法流程如下:算法 2 不同姿态的联合字典训练1 输入:正脸训练样本 和非正脸训练样本 ,并进行 l21,02,0.nII1,2,.nII范数标准化。同一姿态的所有训练样本,分别组合成矩阵 和 ,其中每一列代表一0Y个样本值。2 初始化:初始化训练数据矩阵 ,初始化训练字典 为符合正态分布iY 0D的随机矩阵,并将其结合为(0,1)N0D3 while 1,XDJ固定 求解 : ,该问题是 l1 范数优化1arg minXXFJYX 问题,本文通过l1中提出的凸优化方法求解。固定 求解 : ,该问题是 2 范数优 2ri,. FiDDst 化下的二次规划问题。对于该问题,通过拉普拉斯乘子
21、,可得:2argmin(),.1TTTTiDDJYXXDtrstD+ 令上式积分为 0,得到最速下降法更新公式: (1)()()()()nnnTnniiiIYX 4 end while5 输出:训练字典 ,满足同一个被测者的不同姿态,在对应字典上具有相同的稀0疏表示。4 实验结果本章中,我们分别进行了正脸合成和姿态无关人脸识别两组实验,来证明我们提出的算法的有效性。在 4.1 节,我们首先使用第三章的方法,在 CMU-PIE 人脸数据库中的多姿态图像,进行了正面人脸的合成。在 4.2 节,我们使用合成的人脸作为待测样本,使用CMU-PIE 中的真实人脸当做样本,分别采用了多种固定姿态的人脸识别
22、方法,对重建人脸进行识别,并与 LLR 重建人脸的识别进行比较。4.1 正脸重建为了验证我们我们正脸合成算法的有效性,我们在 CMU-PIE 库的多姿态子集中进行了正脸合成实验,其中包含 68 个测试者的 5 个不同姿态的图像(编号为 c05,c29,c11,c37,分别代表+22.5,-22.5,+45,-45) 。由于样本量较少,我们使用了 leave-one-out 的训练方法。预处理阶段,所有图像根据手动标记的双眼中心位置配准,并切成 大小,两眼固定在80(22,20)和(22,60)两点。此后,将所有切出图像进行零均值化处理,在字典训练阶段,设置字典集长度为 100,分块大小 ,以步
23、长为 2,按照扫描线顺序进行逐个训练。同时,我们分别使用了均方根偏差(RMSE)和峰值信噪比(PSNR)作为衡量重建优劣的标准。部分样本重建结果如下图所示:计算合成正脸和真实正脸之间的均方根偏差,我们得到 c05,c29,c11,c37 的均方根偏差分别为 2.4782,2.3741,2.8110,2.8067,远低于 LLR 方法得到的 12.。4.2 姿态无关人脸识别通过 4.1 节,合成的正脸,可以被用于进行姿态无关的人脸识别。首先,对入库图像均进行 DoG 滤波预处理,滤波核分别选取 。首先进行库内单张图像的识别,12,即对于图像库中,每人仅选用一张图片,作为入库图像,试验中我们选取入
24、库图像为编号为 PIE27 图像子集,测试集为对某个特定姿态下的重建正脸。识别算法分别采用了 Gabor-SPR,PCA-LDA 方法进行了检验。识别率如下图所示:同时,我们采用了 LLR 方法和本文方法进行对比,可以看出,本文的方法在识别率,特别是姿态角较大时(c11,c37)上具有较高的优势。5 结论本文提出了基于稀疏表示的正脸合成算法,训练具有相同稀疏表示系数的多姿态字典。并结合现有人脸识别方法,构成姿态无关的人脸识别系统。同时,通过采用块匹配和对称信息,最大程度的降低了因姿态带来的遮挡问题的影响,产生了较好的结果。我们在CMU-PIE 数据库上进行了多姿态数据的实验。实验结果表明,我们
25、的方法对姿态变化具有很强的鲁棒性,同时也保证了重建人脸在视觉上具有与真实正脸的相似性,对解决姿态问题具有现实意义。参考文献1 W. Zhao, R. Chellappa, P. J. Phillips, and A. Rosenfeld. Face recognition: A literature survey. ACM Computing Surveys, 35(4):399458, 2003.2 Wiskott, L.; Fellous, J.-M.; Kuiger, N.; von der Malsburg, C.; , “Face recognition by elastic bun
26、ch graph matching,“ Pattern Analysis and Machine Intelligence, IEEE Transactions on , vol.19, no.7, pp.775-779, Jul 19973 Belhumeur, P.N.; Hespanha, J.P.; Kriegman, D.J.; , “Eigenfaces vs. Fisherfaces: recognition using class specific linear projection,“ Pattern Analysis and Machine Intelligence, IE
27、EE Transactions on , vol.19, no.7, pp.711-720, Jul 19974 V. Blanz, S. Romdhani, and T. Vetter, “Face Identification across Different Poses and Illumination with a 3D Morphable Model,” Proc. Fifth IEEE Intl Conf. Automatic Face and Gesture Recognition, pp. 202-207, 2002.5 X. Chai, S. Shan, X. Chen, a
28、nd W. Gao, “Locally Linear Regression for Pose-Invariant Face Recognition,” IEEE Trans. Image Processing, vol. 16, pp. 1716-1725, 2007.6 Annan Li; Shiguang Shan; Xilin Chen; Wen Gao; , “Maximizing intra-individual correlations for face recognition across pose differences,“ Computer Vision and Patter
29、n Recognition, 2009. CVPR 2009. IEEE Conference on , vol., no., pp.605-611, 20-25 June 20097 Turk, M.A.; Pentland, A.P.; , “Face recognition using eigenfaces,“ Computer Vision and Pattern Recognition, 1991. Proceedings CVPR 91., IEEE Computer Society Conference on , vol., no., pp.586-591, 3-6 Jun 19
30、918 Xiaogang Wang; Xiaoou Tang; , “A unified framework for subspace face recognition,“ Pattern Analysis and Machine Intelligence, IEEE Transactions on , vol.26, no.9, pp.1222-1228, Sept. 20049 Wright, J.; Yang, A.Y.; Ganesh, A.; Sastry, S.S.; Yi Ma; , “Robust Face Recognition via Sparse Representati
31、on,“ Pattern Analysis and Machine Intelligence, IEEE Transactions on , vol.31, no.2, pp.210-227, Feb. 200910 Xiaofei He; Shuicheng Yan; Yuxiao Hu; Niyogi, P.; Hong-Jiang Zhang; , “Face recognition using Laplacianfaces,“ Pattern Analysis and Machine Intelligence, IEEE Transactions on , vol.27, no.3,
32、pp.328-340, March 200511 Castillo, C.D.; Jacobs, D.W.; , “Using Stereo Matching with General Epipolar Geometry for 2D Face Recognition across Pose,“ Pattern Analysis and Machine Intelligence, IEEE Transactions on , vol.31, no.12, pp.2298-2304, Dec. 200912 Prince, S.J.D.; Warrell, J.; Elder, J.H.; Fe
33、lisberti, F.M.; , “Tied Factor Analysis for Face Recognition across Large Pose Differences,“ Pattern Analysis and Machine Intelligence, IEEE Transactions on , vol.30, no.6, pp.970-984, June 200813 Jianchao Yang; Wright, J.; Huang, T.S.; Yi Ma; , “Image Super-Resolution Via Sparse Representation,“ Im
34、age Processing, IEEE Transactions on , vol.19, no.11, pp.2861-2873, Nov. 2010 14 R. Gross, S. Baker, I. Matthews, and T. Kanade, “Face Recognition across Pose and Illumination,” Handbook of Face Recognition, S.Z. Li and A.K. Jain, eds., Springer-Verlag, June 2004.15 A.B. Ashraf, S. Lucey, and T. Chen, “Learning Patch Correspondences for Improved Viewpoint Invariant Face Recognition,” Proc. IEEE Intl Conf. Computer Vision and Pattern Recognition, June 2008.