1、语音端点检测的方法演讲者:刘德体n 语音端点检测的目的和意义n 基于短时能量和短时平均过零率的端点检测n 基于倒谱特征的端点检测n 基于熵的端点检测n 基于复杂性的端点检测( KC复杂性和 C0复杂性)n 不同语音端点检测方法的实验结果对比语音端点检测的目的和意义n 目的 语音信号端点检测技术其目的就是从包含语音的一段信号中准确地确定语音的起始点和终止点,区分语音和非语音信号,它是语音处理技术中的一个重要方面。n 意义有效的端点检测技术不仅能在语音识别系统中减少数据的采集量,节约处理时间,还能排除无声段或噪声段的干扰,提高语音识别系统的性能,而且在语音编码中还能降低噪声和静音段的比特率,提高编
2、码效率。基于短时能量和短时平均过零率的端点检测n 短时能量语音和噪声的区别可以体现在它们的能量上,语音段的能量比噪声段能量大,语音段的能量是噪声段能量叠加语音声波能量的和。在信噪比很高时,那么只要计算输入信号的短时能量或短时平均幅度就能够把语音段和噪声背景区分开。这是仅基于短时能量的端点检测方法。信号 x(n)的短时能量定义为 :语音信号的短时平均幅度定义为 :其中 w(n)为窗函数。n 短时平均过零率短时过零表示一帧语音信号波形穿过横轴 (零电平 )的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值的改变符号称为过零
3、。过零率就是样本改变符号次数。信号 x(n)的短时平均过零率定义为 :式中, sgn为符号函数,即 :过零率有两类重要的应用 :第一,用于粗略地描述信号的频谱特性;第二,用于判别清音和浊音、有话和无话。从上面提到的定义出发计算过零率容易受低频干扰,特别是 50Hz交流干扰的影响。解决这个问题的办法,一个是做高通滤波器或带通滤波,减小随机噪声的影响;另一个有效方法是对上述定义做一点修改,设一个门限 T,将过零率的含义修改为跨过正负门限。于是,有定义 :n 检测方法利用过零率检测清音,用短时能量检测浊音,两者配合。首先为短时能量和过零率分别确定两个门限,一个是较低的门限数值较小,对信号的变化比较敏
4、感,很容易超过;另一个是比较高的门限,数值较大。低门限被超过未必是语音的开始,有可能是很短的噪声引起的,高门限被超过并且接下来的自定义时间段内的语音超过低门限,意味着信号开始。此时整个端点检测可分为四段:静音段、过渡段、语音段、结束。实验时使用一个变量表示当前状态。静音段,如果能量或过零率超过低门限,就开始标记起始点,进入过渡段。过渡段当两个参数值都回落到低门限以下,就将当前状态恢复到静音状态。而如果过渡段中两个参数中的任一个超过高门限,即被认为进入语音段。处于语音段时,如果两参数降低到门限以下,而且总的计时长度小于最短时间门限,则认为是一段噪音,继续扫描以后的语音数据,否则标一记结束端点。2
5、000 4000 6000 8000 10000 12000 14000 16000 18000-101Speech20 40 60 80 100 120 140 160 180 200 22002040Energy20 40 60 80 100 120 140 160 180 200 2200102030ZCR数字 “4”的短时能量与平均过零率基于倒谱特征的端点检测n 概念信号倒谱的一种定义是信号的能量谱密度函数 S( )的对数的傅里叶反变换,或者可以将信号 s(n)的倒谱 c(n)看成是 logS( )的傅里叶级数展开,即:式中 Cn=C-n为实数,通常称为倒谱系数,且对于一对谱密度函数 S(w)与 S(w) ,利用 Parseval定理,其对数谱的均方距离可用倒谱距离表示 :式中, Cn与 Cn分别代表谱密度函数 S(w)与 S(w)的倒谱系数。