1、大词汇连续汉语语音的 MLP 声学特征的研究摘要:短时声学特征参数如 MFCC,PLP 作为输入向量的高斯混合模型(GMM)的隐马尔可夫模型(HMM)的经典模型在大词汇连续语音识别系统(LVCSR)已取得了良好识别效果。但针对短时声学特征区分性差的特点,本文提出采用神经网络多层感知器(MLP)产生的两种类型差异特征 HATs与 TANDEM 代替短时特征,分别训练 GMM 参数模型。实验结果表明,差异特征的 GMHMM 的 LVCSR 系统优于传统的短时特征的系统;为了更进一步提高系统识别率,该文又将两种类型差异特征 HATs 与 TANDEM 进行复合,构成MLPs 特征流重建 GMHMM,
2、系统的错字率(CER)有 2%3.8%的明显改善。关键词:多层感知器;差异特征;隐马尔可夫;高斯混合模型对语音信号特征参数的研究是建立良好的语音识别系统的基础与关键。在过去的研究中,语音识别系统的特征提取成分主要包括频谱包络预测,特别是经过某些简单变化后的特征,目前前端大部分是基于短时轨迹(约 10ms)信号分析的美尔倒谱(MFC)或是感知线性预测(PLP)。但这些传统的短时特征参数存在着对信号变化过于敏感,不能反映连续帧之间的相关特性,区分性差等方面的不足。近年来,国外很多语音研究机构在语音信号的特征提取、声学建模方面引入了神经网络 ANN,其中由 Berkeley国际计算机学院(ICSI)
3、提出用基于 MLPs 的特征取代传统特征,系统的识别率得到了明显改善1-3。基于 MLPs 特征的差异性的优势和 GMM/HMM模型的成熟性,本文提出将变换后的 MLPs 差异特征后验概率看作是 GMHMM的输入向量,重新构建 GMHMM 模型。实验结果表明 MLPs 特征具有更好的特性,LVCSR 的识别率得到了明显的改善。1 基于 MLP 的差异声学特征为弥补了来自言语感知和倒谱的短时分析的不足,获取时序相关联的多帧语音信息(即音素信息),文本引入了神经网络 ANN 的 MLP,以提取基于非短时轨迹的非传统特征。本文采用的 MLP 特征为 HATs 和 TANDEM 两种。1.1 长时 H
4、ATs 特征参数HATs 特征基于人对不同频带的感觉不同,HATs 特征提取将由两级 MLP实现4-5,第一级由 15 个 MLP 即将关键频带数分为 15 个,第二级由 1 个MLP 构成。HATs 的基本实现步骤:1)依关键频带,分别计算每个短时窗(10ms)对应的关键频带的能量的log 值(即为短时频段能量参数)。2)分别将各频带短时能量参数串联为 0.5s 的长时频带能量参数作为HATs 第一级的输入参数。串联方法为将前 25 帧、后 25 帧和当前帧同频段的能量参数相串联(25+25+1=51),作为该关键频带的 MLP 的 51 个输入单元。即第一级的每个 MLP 都具有 51 个
5、输入端。每一个 MLP 都是为了证实当前帧为某个音素的后验概率 P(Pj/Xt)。因此,在语音识别系统中,每一个 MLP 的输出单元代表了一个音素。由于这些 MLP 为差别性音素提供了音素后验,所产生的特征为语音识别提供了音素差别性能力。3)采用 softmax 函数将每一个 MLP 的概率输出汇总为 1,实现归一化。xij 是来自隐藏单元 i 的输入;wij 是隐藏单元 i 与输出单元 j 的权值;zj 是作为音素后验的 MLP 的输出。隐藏单元应用 sigmoid 函数限止其输出值在 0-1 之间。因为每个关键频带对不同的音素反映不同,所以每个第一级的输出都提供了音素后验概率。第二级的目的
6、在于接合所有音素后验概率,对当前帧所属音素的认定作最后的决策。从不同的实验表明,针对于 LVCSR 最成功的做法是采用第一级隐藏层的结果作为第二级的输入。因为第一级softmax 使所有的输出都转化为同一级别,这样就削弱甚至是抹杀了第一阶段涉及所有的 MLP 的鉴别力。由于第二级的输入是源自第一阶段的隐藏层,即隐藏激活 hidden activation TRAPS (HATS)。第二级的输入单元的数目为 15h,h 是第一级每个 MLP 的隐藏单元数目,本文采用 60 个隐藏单元。最后,从第二级 MLP 计算出音素后验概率。由于系统采用 71 个音素10,所以 HATs 的输出是一个 71
7、维的音素后验概率。二级 MLP 的HATs 特征描述如图 1 所示。1.2 TANDEM 特征本文采用的另一个 MLP 特征是中期特征 TANDEM6。其 MLP 的网络结构如图 2 所示。由于本文采用 MFCC 作为常规 HMM 的输入特征,为了最大化收集新信息,该 TANDEM 网络采用标准短时特征采用 PLP 倒谱特征。TANDEM 由一个MLP 网络组成,抽取相邻 9 帧的 PLP 和基音,以 429(42 维,9 帧)为 MLP的输入,15000 个隐藏单元。隐藏单元依然用 sigmoid 函数,输出单元用后验 softmax 函数。最后 MLP 输出 71 个音素的后验概率。2 M
8、LPs 声学特征的混合本文提出的声学特征的混合是基于 MLP 的长时 HATs 与中期 TANDEM复合为 MLPs 特征流。HATs 与 TANDEM 是采用两套 MLP 系统产生的,也即每一帧都有两个音素后验概率。在文献7中指出,将其两种后验概率进行复合后,其 MLP 的特征更有效。为此,本文采用以下步骤实现音素后验的复合8,其过程如图 3 所示:1)建立后验音素向量:采用 Demspter-shafter7逆熵加权策略将两套音素后验概率合成音素后验向量r1 r2r71。2)用 log 计算音素后验向量:为了让音素后验向量与传统特征复合,采用 log 函数计算使之更像高斯分布;3)用 PC
9、A 实现降维和正交化:为了后期与其它特征复合,71 维的音素后验向量需进行降维处理;因为高斯密度函数常认为是相互独立,对角协方差的,所以音素后验向量需要正交化,进行均值和方差的归一化。最终实现将两个 71 维的音素后验降为一个 35 维的 MLPs。3 模型训练本文的声学模型是以跨词三音子 3 状态左-右的 HMM。基于状态共享的决策树总数为 4500 个上下文相关音素状态。系统采用 3 个级别的训练,第1 级是声道长度的归一化(VTLN)的训练。为了补偿语者差异性,在第 2 级中采用了受限的最大似然线性回归的说话人自适应的训练(SAT/CMLLR),建立语者独立模型。最后是建立语言模型重估(
10、LM rescoring)模型9。4 语料库本文系统使用了 230 小时的广播新闻和广播对话语音数据进行训练。230 小时的语料包括了 30 小时的 HUB4,由 GALE 发布的 100 小时广播新闻和 100 小时广播谈话。识别中使用了 2.2 小时的 eval06 和 2.5 小时的dev07 两组语料。详细语料信息见表 1。5 实验结果及结论本文应用德国亚琛工业大学语音研究所开发的 LVCSR 汉语语音识别系统9进行实验。采用 230 小时语料库为 71 个汉语音素基元模型分别建立基于 MFCC 的 HMGMM 模型及 MLPs/ pitch 混合声学特征的 HMGMM 模型,在识别阶
11、段均使用 eval06 与 dev07 的语料进行识别,其识别结果用连续识别的字错误率(Character Error Rate CER%)进行评价。其结果如表 2 所示。表 2 实验结果清楚表明,采用 MLP 的特征比传统的短时特征都有良好的识别特性,TANDEM 特征系统的 CER 约有 0.5%的改善,HATs 的特性比TANDEM 更好,系统的 CER 减少约 1%2.5%,采用 MLPs 复合声学特征,系统的识别率有了最大的提高,CER 得到了 2%-3.8%的改善。本文复合的声学特征为中时(9 帧)和长时(51 帧)的信息,能否将短时特征再与其复合以提高系统识别率,还待进一步研究。
12、参考文献:1 ZHU Qi-feng.Incorporating tandem/HATs MLP features into SRIs conversational speech recognition systemJ. in Proc. DARPA RT Workshop 2004.2 Jing Zheng. Combining Discriminative Feature, Transform, and Model Training for Large Vocabulary Speech RecognitionC.inProc. IEEE Int. Conf. on Acoustics,
13、Speech, and Signal Processing, Honolulu, Hawaii, 2007(4):633-636. 3 阎平凡,张长水,“人工神经网络与模拟进化计算”M. 清华大学出版社 2005.4 wang M Y.Building a highly accurate mandarin speech recognizerJ.in Proc. IEEE Automatic Speech Recognition and Understanding Workshop, Kyoto, Japan, Dec., 2007:490-495.5 Chen B. Learning long
14、-term temporal features in LVCSR using neural networksJ.in Proc. Int. Conf. on Spoken Language Processing, Jeju Island, Korea, Oct., 2004.6 Hermansky H, Ellis D P W, Sharma S. Tandem connectionist feature stream extraction for conventional hmm systemsC. in Proc. IEEE Int. Conf. on Acoustics, Speech,
15、 and Signal Processing, Istanbul, Turkey, 2000:1635-1638.7 Valente F, Hermansky H. Combination of acoustic classifiers based on dempster-shafer theory of evidenceJ. in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Honolulu, HI, USA, Apr.,2007.8 Morgan N, Chen B Y, Zhu Q, et al.
16、Trapping Conversational Speech: Extending TRAP/Tandem approaches to conversational telephone speech recognitionJ.in Proceedings of IEEE ICASSP, Montreal, May 2004.9 Plahl C, HoffmEister B, Hwang M, et al. Recent Improvements of the RWTH GALE Mandarin LVCSR SystemJ.In Interspeech, Brisbane, Australia, September 2008:2426-2429.10 吕丹桔, Hwang M, HoffmEIster B. 汉语连续语音识别之音素声学模型的改进J.计算机仿真,2010(5).
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。