1、摘要摘 要随着现代科技的快速发展,多媒体及已经在诸多通信领域得到广泛普及,多媒体会议在当今社会中起到了越来越重要的作用。简便而有效的混音算法在多媒体通信的各类应用中至关重要。本文将一些常见的混音算法归类并分析。基于分析发现,常用的饱和算法会在处理过程中引入噪声,简单的平均加权算法会频繁造成音量忽高忽低的现象,从而影响了用户的听觉感受。经分析比较,本文提出改进的自适应减噪算法。此算法适用于并行结构,且不会引入附加噪声,同时具有较低的算法复杂度。测试结果表明该混音算法可获得较好的主观听觉感觉。关键词:混音 实时 多媒体会议 自适应ABSTRACTABSTRACTAlong with the fas
2、t development of modern technologies, the multimedia communication has spread all around the world in the communication fields, and the multimedia conference is becoming more and more important in modern societies. Among the uses of multimedia communication, the good and simple audio mixing algorith
3、ms play a vital role. In this thesis, several commonly used audio mixing schemes have been analyzed and classified first. Based on the analysis, it has been found that, the well-accepted saturation algorithm may cause additional noises in its processing, the sample weighted average algorithm can mak
4、e the level of voice ups and downs frequently, thus good hearing perceptibility may not be received by the users. After analyzing and comparing of these algorithms, a modified Adaptive noise reduction algorithm is provided in the thesis, the parallel processing can fit for this kind of algorithm, Th
5、is algorithm will not produce additional noises and it has the property of lower algorithm complexity comparing with the other ones. Test results have shown that the designed audio mixing algorithm is good in subjective hearing perceptibility.Keyword: Audio mixing , Real-time, Multimedia conference,
6、Adaptive.目 录 i目 录第一章 绪 论 .11.1 背景介绍及意义 .11.2 混音技术国内外的发展现状 .21.3 本文 的研究内容 .3第二章 混音技术概述 .52.1 混音技术的相关概念 .52.2 混音技术原理 及特点 .5第三章 常见混音方案 .93.1 非自适应算法 .93.2 实时自适应音频混合方案 .103.3 常见方案的分析与比较 .12第四章 改进自适应减噪算法 .154.1 改进算法 概述 .154.2 改进算法结构 .174.3 算法处理结果与分析 .19第五章 总结和展望 .235.1 本文总结 .235.2 展 望 .24致谢 .25参考文献 .27ii
7、目 录第一章 绪 论 1第一章 绪 论1.1 背景介绍及意义随着计算机技术、互联网科技以及通信领域的发展,多媒体技术在方方面面都得到了十分广泛的应用。其中多媒体会议的模式在实时多媒体通信业务网络技术发达的现代社会起到了越来越重要的作用。视频会议、IP 电话会议、网络教室,甚至像 QQ、Skype、YY 等各种软件运用多媒体会议模式实现了会议、教学、通讯、娱乐等作用。可以说,多媒体会议技术与我们的生活逐渐密不可分。多媒体会议中,音频质量的好坏往往比视频质量的好坏有着更加至关重要的作用。语音的流畅性与否更能直接体现会议总体水平,如果在一个视频会议中音频质量不好,那么视频质量再好也无法使会议继续正常
8、地进行。语音是一个会议能够正常进行的关键要素,优先级要比视频高出很多。因为在多媒体会议应用中,传输过程中可能会发生网络拥塞、延时抖动、语音包丢失等情况 1,因此音频处理的性能更突显其基础属性的作用,并且在实时标准下对该性能有更高要求。在实际应用中,混音模块的实现主要考虑两个方面:一是语音质量,至少不低于 PSTN 电话语音质量;二是性能,因为网络语音对实时性要求较高,如果混音模块过于复杂,网络语音包被迫延迟,这样的混音模块不具备实用性 2。目前研究混音的文献大都将目光集中在混音算法上,很少有全面介绍混音方案及其关键技术的,要取得好的混音效果,选取好的混音方案和选取好的混音算法同样重要,两者对混
9、音效果都有决定性的影响。因此本文在介绍混音算法的同时,全面论述一般对于音频混合输出仅限于算法理论上的研究,而对于其算法可能造成的时延没有太多涉及,这样的混音技术将不太适合于实际应用方面。本文将从理论性、实用性两个层面来探讨合适算法及其可行性。本文基于 H.323 视频会议标准中的集中式的会议工作模式进行讨论和实施 3。2 混音技术研究1.2 混音技术国内外的发展现状多媒体会议系统中对于音频处理能力的要求是对于时效性和实效性双重标准上的。不仅要求算法能在有限的时间内将音频信号处理完毕,还要求输出的音频是不失真、不会引发听觉不适的。多媒体会议中通常会有多个与会人员,而多媒体会议的意义就要求当存在多
10、名同时发言的人员时,每个与会人员都能挺清楚其他人讲话的内容。由于混音技术在视频会议中的应用,混音技术的算法也得到了多样的发展。多媒体会议系统中对语音流数据的处理是最基本也是实时性要求最高的要素,为了提供给与会者与参与实际会议时无差别的用户体验,必须实现当在某一时刻有多个与会者发言时,与会者能够听到每个发言人的声音,即混音功能。数年来,针对不同的会议环境,相继提出了对应的混音算法,最为简单和常见的混音算法都会采用时域叠加作为基本的处理手段。尽管这种混合方式的原理和运算都非常简单,但是随着用户数量的增多,将会导致音量溢出现象,从而造成严重的失真。在后续的混音研究中,主要有两种不同的方式来处理音频数
11、据溢出现象。一种方法是在语音叠加后对整体混音结果取平均值,其被称为平均权重算法。它在人数不多的会议中可以保持基本的清晰度,其实质是发生声强溢出时,将其控制在合理的范围内。但是当会议成员的数目发生变化时,混音结果将会随着数目的增加或减少而发生对应的音量减小或增大的现象。这将导致原本稳定的声源的音量忽大忽小,当大部分通话细节可以被忽略时可以采用此方法。随着视频会议在网络中的频率应用,人们期待它能够表现出更加强劲的性能。而且更加真实的大规模语音语音模拟环境对上述方法提出了更高的要求。常用的解决方案有设置阈值并进行简单的饱和算法(Saturation operation) ,以及基于权重平均算法引入的
12、自适应音频混合方案(real-time adaptive audio mixing scheme) ,主要有:平均权重法 4(align-to-average weighted,简称 AAW) 、强对齐权重法(align-to-biggest weighted,简称 ABW) 、弱对齐权重法(align-to-weakest weighted,简称 AWW) 、自适应权重法(aligh-to-self weighted,简称ASW) 。弱对齐权重法是对当前参与混音的最弱语音样本值进行放大,注重于分辨混音结果中的细节声音,有一定的自适应性。强对齐权重法与其相反,它的目第二章 混音技术概述 3的是
13、对语音样本值得最大项进行衰减,实现局部调整语音信号。但强对齐权重法和弱对齐权重法都存在音量忽大忽小、溢出问题 5,6。自适应权重法,是以每路语音数据的自身所占比例作为权重,对每路语音进行自动优化,而不是像平均权重法那样取一个恒平均 7。但该方法对实时要求很高,一般用于软硬件协同基础很好的网络中,造价高,具体实现相对复杂 8。1.3 本文的研究内容本文将首先对混音处理的诸多算法分类,再对其中最常见的饱和算法以及基于权重平均算法引入的自适应音频混合方案进行分析。对目前常用的多种算法进行分析并比较之后,针对某些算法并不能彻底解决溢出、引入噪声的问题提出自适应减噪算法。针对论文的研究工作,本文具体的内
14、容安排如下:第一章将混音技术研究的背景及研究意义作出说明,之后介绍了国内外的研究现状。第二章将混音技术的相关概念及物理基础作出解释,之后将混音技术涉及到的基本原理作出部分说明。第三章将常见的几种混音方案进行分析和比较,分别得出各自的优势和劣势,分析其解决溢出的能力、是否会引入新噪声等现象。第四章将结合之前分析的常见混音方案提出自适应减噪算法,对算法概述、分析并进行结果测试。第五章将总结全文内容,提出改进的算法涉及到的问题并对未来研究方向进行展望。4 混音技术研究第二章 混音技术概述 5第二章 混音技术概述2.1 混音技术的相关概念语音指的是人说话的声音储存到计算机里的文件,当然人类能够听到的所
15、有人声都可以称之为语音,无论是说话声、歌声、乐器被录制下来之后都可以通过数字音乐软件处理。在时域上,语音信号是短时平稳信号,当多个音频源同时播放时,人耳听到的声波是各个声源波形的线性叠加,这正是模拟混音的基础。对于模拟语音信号,我们对其进行抽样、量化,就得到数字语音信号,它仍然是一种连续平滑的波形信号。量化后的数字语音信号的频率与模拟语音信号的频率对应,振幅与模拟语音信号的音量对应,且量化后的数字语音信号的叠加等价于空气中声波的叠加。基于上述事实,对于本文研究的数字语音信号,线性叠加是实现混音的基础 9。视频和音频不同,会议中主要表达与会者意思的一项是音频。比如有经验的人会发现在 QQ 视频时
16、由于网络问题,通常对方人像可能会卡住不动或发生延迟的情况,而音频则作为承载对话人主要意思的工具在传递过程中有着比视频更高的优先级。而且视频在时间和空间上不能叠加表达,音频则可以叠加表达,即人可以在同时听到来自不同方向的声音且可以辨别出其意义。这就给混音技术的发展创造了生理上的前提。在集中式会议模式中,如果没有混音的功能,在一个时刻只允许一个人发言的话会影响会议发展,即想发言就必须提出申请,由会议主讲人通过之后才能将自己的想法通过音频传递出去,这与我们实际开会的讨论模式是不同的,缺少了实效性也缺少了时效性。因此,混音功能在多媒体会议中是不可缺少的模块。2.2 混音技术原理及特点时间序列是语音信号
17、的本质,分析时最直接的方法就是利用时域波形。时域波形分析直观明了,计算简单且运算复杂度低。对于计算机来说,模拟语音信号是连续信号,是无法被处理的。因此,数字信号处理方法几乎覆盖了绝大部分的6 混音技术研究语音信号处理设备 10。数模转换器可以将数字信号和模拟信号之间转换,步骤如图 2.1 所示。低通滤波器 采样 量化 编码数字码流图 2.1 数模转换器模型模拟语音信号在时域上是连续的,数字信号在时域上是离散的。将时域上连续的模拟语音信号变为离散的数字信号是需要进行采样的。而对于与会者仅仅通过网络互联的现实情况,语音处理系统只需要将采样得到的数字信号进行叠加等运算即可。采样通过周期性地以某一规定
18、间隔截取音频信号,从而将模拟音频信号变换为数字信号的过程。每次采样时均指定一个表示在采样瞬间的音频信号的幅度的数字。每秒钟的采样样本数叫做采样频率,一般用 fs 表示,音频信号的最高频率用 fh 表示。而根据采样定理,只有当采样频率高于声音信号最高频率的两倍时,才能把离散模拟信号表示的声音信号唯一地还原成原来的声音,即fs2fh。假设有两路采样率均为 ws 的数字音频信号 x1(t)和 x2(t),有 x1(t) F1(ws), x2(t) F2(ws),其中 F1(ws)和 F2(ws)分别为其频谱。两路数字音频信号的混音过程如图2.2 所示:图 2.2 两路数字信号混音频谱示意图模拟音频信号