1、 I 分类号: 密级: 专 业 学 位 研 究 生 学 位 论 文 论 文 题 目(中文) 3D 可视化言语表达和情感模拟研究 论 文 题 目(外文) The research on 3D visual speech expression and emotional simulation 研 究 生 姓 名 学 位 类 别 工程硕士 专 业 学 位 领 域 电子与通信工程 学 位 级 别 硕 士 校内 导师姓名、职称 校外 导师 单位 、 姓名 论文工作起止年月 论 文 提 交 日 期 论 文 答 辩 日 期 学 位 授 予 日 期 II 3D可视化言语表达和情感模拟研 究 摘要 语音 可视化
2、是语音合成研究领域中的一项重要的分支,具有真实感的 3D 人脸模型是实现言语表达和情感模拟动画的基础和前提,同样也 是计算机图形学 、计算机视觉、人机交互等领域中 非常重要的和非常活跃的热点 研究 课题。 合成具有 真实感 视觉方面的 3D 人脸模型 是现阶段 国内外的许多专家学者 的难点所在。这是因为人脸生理结构的复杂度,人脸说话口型 的多样性,人脸表情运动的微妙性,口型动作与文本或声音的复杂的映射建模等都是具有挑战性的研究 。 本 文 在前人研究的基础上 结合语言学和计算机图形学的知识,建立 一个文本驱动的 带说话、嘴部动作、韵律和面部表情等的 3D 说话人头像动画模型。该模型具有真实感好
3、、言语表达和情感模拟性逼真、自动化等优点,在电影特效、广告 动画、 计算机 游戏和言语康复训练以及虚拟教学 和视频会议 等领域都有重要的应用前景 。 本文 使用直接面部跟踪技术 ,以 美国的 NaturalPoint 公司旗下的 Optitrack 系统采集 真实人 脸部运动数据的三维信息。该系统有六个红外摄像机和配套的软件Arena 组成,用来跟踪真实人说话时贴在脸部的 markers 点运动位置。首先将得到的三维运动信息提出得到运动特征点的三维坐标,其次将经过处理的三维坐标点映射到人脸模型特征点坐标系中来驱动虚拟的 3D 人脸模型。 文章中 3D 虚拟人脸 模型 分成几个运动相对独立的功能
4、区域,使用狄利克雷自由变形算法 DFFD和 刚体 的旋转平移变换上的控制点的 移动 来驱动 3D 说话人 模型,通过不同 功能区域交叉控制点,模拟不同功能区的相互影响。通过 Visual Studio 2010 C/C+编程,并用开放的图形接口 OpenGL 添加光照,纹理映射等信息显示出来。 本文中的言语表达和情感模拟分别采集不同的真实人的脸部运动信息来驱动。言语表达采集中性的文本语音数据, 然而 情感模拟的数据 需要 采集专业表演人员的带有感情色彩的语句。 与此同时采集并处理对应的语音信息,作为音视频对照和同步以及可视化语音识别的一个研究方向。接着 本文设计了人工实验来对 对 模拟出来的言
5、语和情感效果进行验证 以及评价 。最后,我们对本文的研究工作做了总结,并对当前存在的不足和问题进行了分析和展望,并对未来的可能的研究方向做了憧憬。 关键词: 语音可视化, 言语表达,情感模拟, 虚拟教学, DFFD, OpenGL III The research on 3D visual speech expression and emotional simulation Abstract Speech visualization is an important branch in the field of speech synthesis research. Realistic 3D fa
6、ce model is the basis and prerequisite for realizing speech expression and emotion simulation animation, it is also a hot research topic which is very important and extremely active in the fields of computer graphics, computer vision, human-computer interaction and so on . It is very difficult for l
7、ots of experts and scholars who come abroad or home to synthesize the face mode with realistic vision aspects at present stage. The reasons why it is a challenge research are that the face physiological structure is very complex, the mouth shape is diverse when people speech, the facial expression m
8、ovement is subtle and the action of the mouth and the complex mapping of the text or sound is with difficult. We build a 3D talking head animation model with text-driven, mouth movement, rhythms and facial expression via combining the knowledge of linguistics and computer graphics based on previous
9、studies. Its advantages are well realism, the realism of verbal expression and emotion simulation, automation , ect, and it has bright application prospects in the film effects, advertising animation, computer games, speech rehabilitation training, virtual teaching and video conferencing and other f
10、ields. In this paper, we obtain three-dimensional information from real human facial motion by using the NaturalPoint system of United States based the direct face tracking technology. There are six infrared cameras and companion software named Arena in this system to track the movement of marker po
11、ints which are on the real person face when speaking. Firstly, we can get the three-dimensional motion position of motion feature points from the three-dimensional motion information. And then map the 3D coordinate points which are processed to face model feature coordination system to drive the vir
12、tual 3D face model. The 3D virtual face model is divided into several functional areas which are relatively independent in this paper, and the 3D talking head model is driven by the Dirichlet free deformation algorithm DFFD and the movement of the control points on the rigid rotation transformation.
13、 Simulating the interaction influence of different functional areas is through different functional area cross control point. And also making programming in Visual Studio 2010 C/C+, then displaying the result through the open graphical interface OpenGL by adding light, texture mapping and other info
14、rmation. In this paper, speech IV expression and emotional simulation are driven by different real human facial motion information respectively. The data of speech expression which are from neutral text voice are collected, while the emotional simulation data which come from the statements with emot
15、ional are collected by professional performers. At the same time, we collect and process the corresponding database and then regard it as a research direction for audio-video comparison and synchronization, visualization of speech recognition. Next, we verify and evaluate the experiment effects of s
16、peech expression and emotional simulation by designing the manual experiment. Finally, we summarize the research work of this paper, analyze and forecast the current shortcomings and problems, meanwhile, look forward to the longing of possible research direction in the future. Key words: speech visu
17、alization, speech expression, emotional simulation , virtual teaching, DFFD, OpenGL V 目 录 摘要 . II Abstract.III 第一章 绪论 . 1 1.1 引言 . 1 1.2 国内外研究现状以及研究意义 . 2 1.2.1 国内外研究现状概述 . 2 1.2.2 研究意义 . 6 1.3 本文主要工作及内容安排 . 7 1.4 本章小结 . 9 第二章 狄利克雷自由变形算法和 OpenGL 图形学技术 .10 2.1 变形算法简介 . 10 2.2 DFFD 算法总思想 . 11 2.3 DFFD
18、 算法原理 . 13 2.3.1 Delaunay 三角划分 . 13 2.3.2 Voronoi 图 . 14 2.3.3 Sibson 坐标的计算 . 16 2.3.4 DFFD 算法流程 . 17 2.4 OpenGL 图形学技术 . 18 2.4.1 OpenGL 图像学技术简介 . 18 2.4.2 OpenGL 的纹理映射技术 . 19 2.5 本章小结 . 20 第三章 3D 可视化人头的实验设计和数据处理 .21 3.1 实验设计的整理思想 . 21 3.2 实验数据采集 . 21 VI 3.2.1 基于 Arena 的数据采集平台 . 21 3.2.2 语料和受试者的选取 .
19、 24 3.2.3 实验采集的数据库 . 26 3.3 数据处理 . 28 3.3.1 音频 -动作数据同步和音频切割 . 29 3.3.2 运动数据的离群值检测和修正 . 31 3.3.3 去 除运动数据的刚体头部运动 . 33 3.3.4 运动数据的姿势矫正 . 35 3.3.5 真实数据映射到模型坐标系中 . 37 3.4 本章小结 . 39 第四章 3D 可视化言语表达和情感模拟系统的设计与实现 .40 4.1 3D 可视化言语表达和情感模拟系统的整体框架 . 40 4.2 3D 可视化言语表达和情感模拟系统的实现 . 41 4.2.1 DFFD 的计算和实现接口 . 41 4.2.2
20、 数 据初始化 . 42 4.2.3 事件监听 . 44 4.2.4 头部的运动数据处理方式 . 45 4.2.5 3D 可视化言语表达和情感模拟系统的系统实现 . 46 4.3 本章小结 . 48 第五章 实验结果与系统评估 .49 5.1 实验结果 . 49 5.1.1 面部运动数据的静态帧和关键帧显示 . 49 5.1.2 3D 可视化人脸模型的设置 . 51 5.1.3 3D 可视化言语表达动画结果 . 53 5.1.4 3D 可视化情感模拟动画结果 . 54 5.2 实验结果评估和分析 . 57 VII 5.3 本章小结 . 60 第六章 总结和展望 .61 6.1 本论文工作的总结
21、 . 61 6.1.1 本文的特色 . 61 6.1.2 本文的不足和缺陷 . 62 6.2 对未来要继续进行的工作的展望 . 63 参考文献 .65 在学期间的研究成果 .69 致 谢 .70 兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟研究 1 第一章 绪论 1.1 引言 合成逼真的三维人脸模型动画技术是计算机图形 学和人工智能快速发展的产物。三维人脸模型动画技术能够在计算机中建立一个虚拟的世界,由于其真实性,交互性和易操作性的特点让我们能够感同身受,犹如身临其境的感觉。人脸建模和动画正在以蓬勃发展的势头融入了我们的生活,比如游戏娱乐、电影动画、虚拟会议、辅助教学。而面部手术
22、,高科技武器对战模拟以及视频电话等其他的许多科学研究领域,都无不充斥着各种虚拟的三维场景和虚拟的三维人物。 自上世纪七十年代开始,人们便开展借助于日益高度发达的计算机和计算机图形学来模拟真实人脸表情的变化并且取得了显著的效果。比如作为首部全电脑制作 的动画玩具总动员中的胡迪的生动活波的表情让我感受到动画的效果。 2010 年上映的阿凡达以其震撼的视觉效果,生动逼真的人脸形象与场景,让我们领略到 3D 动画技术,尤其是人脸动画技术的魅力,但是,该影片高达 75%的内容其实是在计算机图形学结合表演捕捉和虚构的环境生成的。近段时间以来,我们见证了功夫熊猫中胖嘟嘟可爱的熊猫阿宝,捉妖记中胡巴的虚拟构造
23、以及疯狂动物城中尤其是闪电形象的惟妙惟肖的表现,无一不体现出人脸建模和表情动画的无穷魅力,这使得三维虚拟动画技术有着长足的应用场景和广阔的应用市场。如 何快速并且鲁棒性的生成具有真实感的人脸模型和人脸表情动画一直是一个具有挑战性的研究课题。这是由于人们天生的对表情熟悉程度以及对人体五官的敏感程度,稍微产生一点细微的偏差不足都会引起人们的迅速关注,另一方面,如何确保三维动画技术能够实时显示,易于移植性是另外一个需要考虑的问题。其中两个具有代表性的课题是 3D 虚拟人脸的可视化言语表达和情感模拟的动画实现,主要共同原因有两点:( 1) 3D 虚拟人脸的生理结构复杂和表情变化的无定形态使得难以采用数
24、学模型或物理模型近似地对其运动进行精准的建模;( 2)它们的运动规律复杂, 3D 虚拟人脸需要模拟人脸复杂的表情运动以及发音器官的发音动作 ,同时也必须要做到脸部的各个器官协同一致,模拟出具有真实感的人脸自然表情动画也比较困难 。目前,这两类技术 的研究 均不成熟,是亟待解决的问题。 言语和情感是人们相互交流的主要方式,也是获取信息的主要载体。通过言语表达和情感模拟研究的系统产生的最具代表性的成果是言语表达和情感机器兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟研究 2 人的诞生。 这样的机器人需要实现和人、环境进行交互的交流 ,且具有一定的 人性 。虽然这一产业 目前 还处于初级
25、发展阶段,技术还不够成熟, 但也取得了一定的研究成果。 美国公司 Hanson Robotics 打造的首款女机器人索菲亚,可以模拟出真实人的 那份眼神和表情, 几乎 可以 达到以假 乱真 的地步 。 微软 公司推出的小娜 通过 对交流对话中的 语境 与语义的理解,可以实现 一般的人机对话; 之后推出的 智能机器人 小冰,可以感知在和人交流过程中人的言语表达的表情和情感,从而做出 适应性的应答交流。 图灵机器人采用 多模态交互 方式 ,能够进行语义分析、自然语言对话、深度问答等人工智能技术服务,同时也支持情感识别和情感表达的功能。 中国科学技术大学 在 2016 年隆重推出的美女机器人 -佳佳
26、,以真实的美女脸部和身材为原型,以人的实际尺寸和五 官 精心打造 。不但颜值爆表,具有高仿真性,而且 能够 实现一定情景的人机对话,并且可以做到应答入流, 渐入佳境, 实现跨洋的人机交流。另外,在情感上和语气上也有很好的体现, 可以转动眼珠和点头和摇头,具有对话理解、面部 表情 、 口型 和肢体动作搭配,协调同步的功能, 动作与表达内容的适应性很好 ,可以做到具有很高的真实感 。出现于最强大脑上的百度机器人小度,则代表了人工智能的最高水平,其在人 机对话的流畅性,视听觉领域的霸占统治地位,可以实现对交流意图 的 理解,同时也 具备情感连接 的 能力,能与用户进行情感互动,在人机大 战中的绝对优
27、势让我们感叹于我们的科技成果。 当然,能够进行言语交互、情感交流、情感认知和理解表达能力都突出的机器人是我们当下的任务之急。但是,实现这一目标的前提和条件是需要具有可视化的言语表达和情感模拟的系统,这就需要我们首先对3D 人脸模型的建立以及对人脸的言语表达和情感的模拟进行研究。 1.2 国内外研究现状以及研究意义 1.2.1 国内外研究现状概述 语音可视化,即通过直观地呈现可见发音器官的发音运动,合成生动逼真的说话人脸模型动画一直以来是一个非常活跃的研究课题,因此建立一个具有真实感的 3D 人脸模型和 人脸动画是目前计算机图形学、计算机视觉领域最直接的问题。自上世纪 70 年代 Parke 完
28、成了第一个参数化的三维人脸动画 1 以来,三维人脸动画技术便取得了飞速的发展, Platt 提出了一种物理肌肉的人脸表情模型 2,该模型通过对肌肉施加压力来达到对弹性皮肤网格进行控制和变形,从而得到人脸表情动画。 Waters3等人提出了采用多边形网格建模的方法,通过不同局部的变形区域的人脸网格控制顶点的向量来模拟人脸面部的表情。 Lee4等人利用物兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟研究 3 理装置获得三维数据和纹理信息,然 后 通过插值方法来获取特定人脸模型并为其添加纹理信息。 Pighin5等人提出从照片中提出人脸若干个特征点,并将二维的特征点映射到三维的人脸模型上
29、去,其缺点是需要人工标定大量的特征点和计算的复杂性。 Volker Blanz6等人提出了一种新的基于统计的人脸建模方式,其优点是输入简单,不会出现奇异的失真,缺点是建立的人脸库比较麻烦,并且具有年龄的局限性。 Denis7等人基于立体视觉的原理,利用二维的正面和侧面的人脸照片,根据角度的不同提取三维信息,从而建立虚拟的三维人头模型;Ersotelos8等对 真实感的人脸与建模技术进行了总结;提出了数据驱动的合成方法,主要是基于数字图像处理理论。 我国在可视化语音和人脸动画方面的研究虽然起步相对较晚,但是发展速度还是较快的。哈尔滨工业大学的晏洁 9-10针对人脸图像的合成、表情的合成取得了显著
30、的成果 11。中国科技大学在语音特征提取、语唇同步和语音可视化方面取得了一定的成果 12。中国科学院计算技术研究所和浙江大学等研究机构也用二维的人脸照片经过一定的算法实现三维的重建 13。 语音可视化其实就是 将听觉信息通过计算机等技术手段转化为视觉信息的一个处理过程 。通常的一个做法就是建立一个虚拟的人脸模型达到 说话 的目的。人脸模型包含着人脸建模和人脸动画两个方面。人脸建模是实现人脸动画的前提和基础;人脸动画是人脸建模的目的和归宿。 因此, 建立一个表情丰富,生动逼真, 易于实现的三维 人脸模型 一直 是 计算机图形学、 计算机视觉 和 模式识别 领域的 活跃 热点 研究之一 。 但是
31、三维人脸建模始终是一个极具挑战性的难题,一方面由于人脸具有非常复杂的几何形状和生理结构,必须通过足够的技术手段来模拟这些特征 14;另一方面视觉语音合成中一个关键的问题是 人脸 模型的建模方式,纹理,光照等条件的处理 。同样具有通用性和实用性以及成本代价不昂贵的三维人脸模型也是一个制约的因素。 首先是手工建模,这个是需要专业的三维技术人员,以三维软件平台为基础,以人脸生理解剖学为背景,人工的手动描绘出三维 人脸模型,这种方法的优点是思想比较简单,不受外界的干扰,完全出 自 于绘画者的手工,缺点是 制作费时,需要大量的手工,且对人员专业要求较高; 其次 就是特征建模, 它需要从 不同的角度对同一幅 图像或视频中跟踪并提取人脸的特征标记点的 二维位置信息从而得到 三维坐标信息,然后通过变形插值算法重建三维人脸模型。 它的优点是方法也比较简单,思路清晰,缺点是视角的选取具有很大的依赖性,同时对精确度以及算法的实现有很高的要求;再者就是统计建模,它 需要 首 先构建一个比较大且通用的人脸数据库,然后 选取一张人脸照片建模时,就需要用人脸库中模型通过线性组合的方式合成并匹配这个人脸照片 。它的优点是输入 比较 简