1、 I 分类号: 密级: 研 究 生 学 位 论 文 论文题目(中文) 3D可视化言语表达和情感模拟探究 论文题目(外文) The research on 3D visual speech expression and emotional simulation 研 究 生 姓 名 学 科 、 专 业 电子科学与技术、电子与通信工程 研究方向 语音信号处理与模式识别 学 位级别 硕 士 导师姓名、职称 论文工作 起止年月 论 文 提 交 日 期 论 文 答 辩 日 期 学 位 授 予 日 期 II 3D 可视化言语表达和情感模拟探究 摘要 语音可视化是语音合成研究领域中的一项重要的分支,具有真实感
2、的 3D 人言语模型和 情感 表达是计算机图形学领域中的两个非常重要的和具有挑战性的课题。人脸表情运动的微妙性和多样性、口型动作与文本或声音的复杂对应性建模理论正是难点所在。论文结合语言学 和计算机图形学 的知识,建立带说话、嘴部动作、韵律和 面部 表情等的 3D说话人头像 动画模型,在虚拟动画、游戏和言语康复训练以及虚拟教学等领域都有重要应用。 论文 使用直接面部跟踪技术 采用 FacialCapture 设备采集发音特征点,将3D 虚拟人脸分成几个运动相对独立的功能区域,使用狄利克雷自由变形算法DFFD 和刚性的旋转平移变换来模拟 3D 说话人头像功能区的动画,通过不同功能区域交叉控制点,
3、模拟不同功能区的相互影响。 另外在情感语音模拟上使用带表情的文本数据驱动, 与此同时采集并处理对应的语音信息,作为音视频对照和同步的一个研究方向 。 然后, 本文设计了人工实验来对 模拟出来的言语和情感 效果进行验证。 最后, 我们对本文的研究工作做了总结,并对当前存在的不足和问题进行了分析和展望,并对未来的可能的研究方向做了憧憬。 关键词: 语音可视化 , 虚拟教学 , DFFD, 运动轨迹 II The research on 3D visual speech expression and emotional simulation Abstract Important Material M
4、onitoring System is an important remote monitoring system, it is in real-time, high accuracy and efficiency for remote material information management. According to current technological developments, it is a fusion of the IOT technology, high-end wireless transmission technology, more advanced info
5、rmation technology, computer processing technology and modern sensor technology, etc. As an important part of dynamic material monitoring system, the Important Material Monitoring System (IMMS) based on BD short message achieves the function of real-time remote moving supplies data uploading. In thi
6、s paper, the proposed two-way BD message IMMS integrates the two-way message communication and Location of BD-I, GSM/GPRS location based service (AGPS) and wireless communications, ZigBee wireless positioning and popular technology such as embedded system. The two-way BD message IMMS can receive rea
7、l-time information of material location generated by BD positioning and AGPS joint ZigBee wireless base station, and upload to the backend monitoring center. By this way, dynamic positioning, statistics and monitoring materials of remote real-time monitoring and other important functions are achieve
8、d. In this paper we will introduce the main researches as following: First, based on the monitoring and control system function requirements, the generation of BD two-way message communications, GSM/GPRS and ZigBee positioning of base station positioning communication understanding, we give the prel
9、iminary on the systems overall design ideas, to achieve the main function modules of type selection and complete hardware platform design; Second, we implement the monitor display applications, according to the design of realizing the wireless remote monitoring of important materials. It is mainly f
10、or two-way message positioning communication data transmission process,ng GSM/GPRS communication location based service data processing and data transmission to complete the monitoring center system and using the data interaction between terminal system; Finally, test software for each communication
11、 module unit and the overall communications of dynamic monitoring system, to ensure that monitoring and control system is reliable and stable. III Key words: BD Short Message, AGPS Location Based Service, ZigBee,Dynamic Monitoring 目 录 中文摘要 . II Abstract . II 第一章 绪论 .1 1.1 引言 . 1 1.2 国内外现状以及 研究意义 . 3
12、 1.2.1 国内外研究现状 . 错误 !未定义书签。 1.2.2 本文的研究意义 . 错误 !未定义书签。 1.3 本文主要工作及内容安排 . 5 1.4 本章小结 . 7 第二章 狄利克雷自由变形算法和 OpenGL图形学技术 错误 !未定义书签。 2.1 变形算法简介 . 8 2.2 DFFD 算法总思想 . 10 2.3 DFFD 算法原理 . 17 2.3.1 Delaunay 三角划分 . 10 2.3.2 Voronoi 图 . 10 2.3.3 Sibson 坐标计算 . 13 2.4 OpenGL 图形学技术 . 17 2.5 本章小结 . 17 第三章 ZigBee 无线定
13、位软硬件设计 . 18 3.1 ZigBee 无线定位技术介绍 . 18 3.2 ZigBee 模块通信协议栈 ZigBee2007/PRO . 19 3.3 ZigBee 模块硬件设计 . 23 3.4 本章小结 . 26 第四章 动态监控系统软硬件设计 . 27 4.1 STC15W4K60S4 系列单片机介绍 . 27 4.2 动态监控系统主控制器底板与控制中心接收端的设计 . 28 4.3 ZigBee 模块 CC2530 终端设计 . 32 4.4 监控系统底层控制软件设计 . 33 4.5 控制中心显示端软件设计 . 34 4.6 本章小结 . 35 第五章 监控系统调试与测试结果
14、分析 . 36 5.1 监控系统软硬件调试方法 . 36 5.1.1 北斗短报文通信调试 . 36 5.1.2 GSM 定位通信调试 . 40 5.1.3 ZigBee 模块 CC2530 定位通信调试 . 43 5.2 监控系统发射端与接收端调试 . 46 5.3 本章小结 . 47 第六章 论文 总结 . 48 6.1 本 论文 工作的总结 . 48 6.2 对未来 要继续进行的 工作 的 展望 . 48 参考文献 . 50 在学期间的研究成果 . 53 致 谢 . 54 兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟探究 1 第一章 绪论 近年来,随着计算机科学技术和人工智能
15、 的飞速发展,三维人脸表情动画 技 术也飞速发展起来。三维 人脸表情 动画作品层出不穷,三维效果也越来越逼真。三维图像技术能够在计算机中建立一个虚拟的世界,来模拟真实物体,它比传统的平面图更加形象,能给观众以身临其境的感觉。由于其精确性,真实性和易操作性,目前广泛应用于军事、科技、医学、教育、娱乐等诸多领域。 1.1 引言 伴随着计算机技术和计算机图形学的 等新兴技术的发展,人类社会已进入一个高度信息化的时代,有人提出,我们将会处于真实世界、构造世界和虚拟世界的三元世界中。 虚拟世界 正在以蓬勃发展的势头融入了我们的生活。游戏、动画电影、智能语音机器人、 高科技武器对战模拟以及其他的许多科学研
16、究领域,都无不充斥着各种虚拟技术。虚拟技术给我 们带来了很多便利,影响着我们的思维体验,也改变着我们的生活方式, 诚然也会带来一些挑战。 自上世纪七十年代开始,人们便开展借助于日益高度发达的计算机和计算机图形学来模拟真实人脸表情的变化 , 诚然,使用计算机合成的人脸表情动画技术已经广泛应用于电影特效,虚拟主持和动画制作。 2010 年上映的阿凡达 以其震撼的视觉效果,生动逼真的人脸形象与场景,让我们领略到 3D 动画技术,尤其是人脸动画技术的魅力,但是,该影片高达 75%的内容实在计算 机图形学结合表演捕捉和虚构的环境生成的。 近段时间以来,我们见证了速度与激情 7中保罗沃克的虚拟构造以及疯狂
17、动物城中 尤其是闪电形象的 惟妙惟肖的表现,3维虚拟动画技术有着长足的应用场景。 如何快速并且鲁棒性的生成真实感的人脸表情一直是一个具有挑战性的研究课题。 这是 由于 人们天生的对表情 熟悉程度以及对人体五官的敏感程度,稍微产生一点细微的偏差不足都会引起人们的迅速关注, 另一方面,如何确保 3维动画技术 能够实时显示,易于移植性 是另外一个需要考虑的问题。其中两个 具有代表性的课题是 3D 虚拟人头像和 情感表情 的动画实现,主 要共同原因有两点: 1) 3D 虚拟人头像生理结构复杂和表情变化的无定形态使得 难以 采用数学模型或物理模型近似地对其运动进行精准的 建模; 2)它 们的运动规律复杂
18、, 3D 人头像需要模拟人脸复杂的表情运动以及发音器官的发音动作。 目前,这两类技术均不成熟,例如,在很多动画电影中,虚拟角色的对话,只能看到简单的张嘴闭嘴运动,疯狂动物城要好一些,但是口型与语音的对应性依然不完美, 这些问题是亟待解决的问题, 兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟探究 2 语音和视觉是人类信息和知识的主要载体,也是人类进行学习和交流的重要工具,它们 在人们日常生活的交流中作为传递信息的主要方 式 。 人类感知外界最直接的方式是语音和视觉,这也正构成了人工智能的两个研究课题:语音识别和合成以及计算机视觉。目前,国际上也正在兴起多模态感知的研究方式,可以用视
19、觉来弥补语音,也可以用语音来弥补视觉,达到相互增强的效果。认知心理学研究表明, 在环境噪声较大或听者有听力障碍的情况下,如果在处理声音信息的同时能显示一个“会说话的头像”,即能够表现说话者面部表情和嘴部、眼部等变化情况,则会大大加强人们对声音信息的理解和感知。 同时,最新的研究表明,可视化的言语动态模拟过程可以刺激人们对内部发音器官运动轨迹的理解,通过建 立一个 言语 3D 虚拟人头像, 研究语音与视觉的对应关系,来达到语音可视化的效果,无论是在科学研究还是实际应用中都有重要意义,可以用在言语康复训练、虚拟教学以及新语种的学习等方面。 语音可视化技术核心是语音 技术与三维图像技术两部分 ,有几
20、种研究途径:1) 语音动画技术,即通过计算机图形技术构建二维或者是三维的头像,使用语音合成技术,人为的模拟各个音素的发音特征,包括口型,表情,韵律等内容,但是, 这种方法太过复杂,肌肉控制参数难以选择,模拟的效果不是很理想; 2)计算机图形学技术构建 3D 人头像模型,采集真人发音时的发音数 据,通过数据来驱动虚拟 3D 人头像的面部运动,这种方法合成的语音有很高的真实度和自然度 ; 3)利用机器学习等人工智能技术,学习语音或文本与发音器官运动和表情运动的对应关系,使用任意语音或本文来驱动 3D 人头像模型,这种方法避免了浸入式的真人数据采集,目前也正处于研究阶段。 陆续的有许多言语表达机器人
21、逐渐地走入了人们的视野中,有的是以真实的机器人作为载体,有的则是以虚拟动画的形式出来,他们大多代表着当前最新的研究成果。美国公司 Hanson Robotics 打造的首款女机器人索菲亚,有 48 个肌肉, 33 个仿真器,模拟的 那份眼神和表情,可以乱真。 2015 年,北京龙泉寺打造了一款机器僧贤二,可以与人类探讨佛法,进行简单对话,其憨态表情也表现的惟妙惟肖。 2016 年,中国科学技术大学精心打造的美女机器人佳佳的出现,也令观众耳目一新,她可以与人类进行简单对话,表情与口型动作与表达内容的适应性很好。微软打造的智能语音机器人小冰,可以感知人类言语表达时的表情与情感,从而做出更好的应答,
22、他们也正在试图以试听相结合的方式来研究人类的言语表达。 语音可视化技术不仅结合了语音信号处理的技术,而且通过三维图像技术将语音应用表现出来。它通过建立一 个基于生理结构的虚拟的三维人说话头像,形象、逼真的同步表达出语音的信息。基于语音产生机理和生理解剖学的语音可视兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟探究 3 化 可以进行言语康复训练,虚拟教学以及新 言语学习。 1.2 国内外现状以及研究意义 1.2.1 国内外研究现状概述 语音可视化, 即通过直观地呈现可见发音器官的发音运动, 合成生动逼真的说话人脸 模型 动画一直以来是一个非常活跃的研究课题,它牵涉到计算机图形学、解剖
23、学、认知心理、模式识别等多个学科,属于一个交叉的研究了领域。自上世纪70年代 Parke 完成了第一个三维人脸动画 1 以来,此 后很多研究学者在这个领 域取得了很多重要的研究成果 。 文献 2中 Denis 等人采用从正面与侧面两张不同角度的人脸照片中建立三维人头的虚拟模型; Ersotelos 等 3对真实感的人脸与建模技术进行了总结; 提出了数据驱动的合成方法,主要是基于数字图像处理理论。 近年来,随着计算机技术和图形学的发展, 三维说话人模型动画 取得了 很大的发展, 这主要分为两个方面:人脸建模和人脸动画。人脸建模就是使用计算机三维图形技术,在虚拟的三维空间下构造一个形象、逼真的人脸
24、模型;人脸动画就是通过使用三维变形技术,驱动人脸模型,模拟真实人脸说话的表情、动作。 但是,三维人脸建模始终是一个极具挑战性的难题 ,一方面由于人脸具有非常复杂的几何形状和表面纹理,必须通过足够的技术手段来模拟这些特征 4; 另一方面 视觉语音合成中一个关键的问题是头模型的建模方式 ,纹理,光照等条件的处理 。早期在计算机性能低下,相关理论不大成熟的情况,采用的是基于向量图的二维面部拓扑结构。再后来提出了三维线帧模型,这是一种基于光栅图的方法,用复杂多边形组成人的头结构,这种方法的难点在于时变运动控制参数的推导。还有从解剖学上对头进行建模,定义好皮肤、肌肉和骨骼的描述,是时变的肌肉控制参数来改
25、变形 状模拟运动方式,然而困难的是肌肉参数推导机制很不直接,测量也非常复杂,而且肌肉特征的控制参数只有部分可见。动画其实就是一帧一帧的静态图片快速切换过程,也有基于强大的计算机系统,在一系列面部图片之间切换来模拟头部运动。另外就是基于变形算法,通过捕捉少数的面部控制点,通过变形算法来计算整个人脸的变形点 5。 人脸 动画是计算机图形领域的主要内容,是一种虚拟现实技术。通常三维 人脸 动画具有虚拟性、模仿性、综合性和直观性的特点 6。 相比于二维动画技术,它具有更高的维度,包含更多的空间信息,对光照,颜色,姿势等变化具 有鲁棒性。 三维动画的应用很广泛,可以辅助教学,可以作为类人计算机代理,可以
26、用在动画卡通电影中,还可以应用在游戏娱乐中。 兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟探究 4 我国对这方面的研究起步比较晚,对人脸 模型 动画的研究目前主要处于人脸建模方面,中国科技大学在语音特征提取、语唇同步和语音可视化方面取得了一定的成果 7。然而在 我国的一些动画电影制作当中,通常只考虑动画人物和场景等满足剧本要求即可,很少考虑人物的环境内在特点,在虚拟人物设计和渲染方面也远远落后于日本等一些发达国家,这样的动画难以引起观看者的兴趣。现在我们国家也在控制人物运动和人物造型设计上做 研究,这也加快了动画企业和游戏企业的发展 8。 从三维动画角色的设计上来说,目前国内外都
27、是以 3DSMAX 和 Maya 为主,这两款软件提供了多种建模方法,但主要还是多边形建模。尽管如此, 3DSMAX 和Maya 建模是一个很费时费力的过程。 无论是国内还是国外的动画电影,观者可以感受强烈的夸张效果,这是一种喜剧色彩。然而需要应用在类人计算机代理和虚拟播音员的场景中,我们需要其尽量的真实性,无论是从人物构型方面还是从人物运动,言语表达时的表情和口型等与表达内容和声音的一致性,都需要与真实人物有很高的类似性,目前国内外还不能在这方面达到很好的效果。 情感作为主观认知经验的表达,它既是主观感受,又是客观生理的反应,通常情感的表达伴随着言语的产生而发生, 由于情感大多具有目的性,可
28、以帮助我们理解与他人的交流,表达内心的意愿,影响他人对我们的态度,甚至使别人的情绪也发生改变。所以把握交流沟通中的 情感对我们来说是十分必要的。 目前已有很多表情方面的研究, 从合成情感模拟采用的技术的不同,主要分为以下几类;( 1)混合样本人脸表情合成;( 2)直接表情迁移;( 3)基于 Sketch 的人脸表情编辑与合成;( 4)基于机器学习的真实感人脸表情合成; ( 5)高分辨率人脸表情与细节的提取与合成 9。 目前这些的研究中 大多都是纯表情,没有跟言语表达结合起来。 使其应用范围很受限制,另外一方面,这些表情需要很大的情感空间, 浙大的周昆等人建立了 150 人 20 种表情的表情数
29、据库 10-11,并将该数据库成功应用到了表情的实时计算和表情驱动中 12-17,他们的研究重点关注的是实时性,以及可以面向任意用户,但缺点就是表情有些粗糙,而且只是纯表情,没有言语表达方面的信息 。 1.2.2 研究意义 视觉语音合成是目前正在研究的一个领域,本文合成的 3D 人头像系统,带有表情、 韵律和对应性良好的嘴部动作,基于 DFFD(狄利克雷自由变形算法),采用 FacialCapture 设备采集数据进行驱动而成 ,不仅可以用在视觉语音合成,还可以应用在视听语音识别上。本文的 3D 人头像系统和相应的算法完全是基于C/C+和 OpenGL 工具实现的,人物模型则采用 3DSMAX 创建,这也是计算机图形学领域非常常用和比较先进的工具。本 文 带表情的连续语音 3D 人头像系统也可