ImageVerifierCode 换一换
格式:PPT , 页数:28 ,大小:289KB ,
资源ID:3572699      下载积分:20 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-3572699.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(声纹自动识别技术的 关键与核心算法 郑 方.ppt)为本站会员(创****公)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

声纹自动识别技术的 关键与核心算法 郑 方.ppt

1、声纹自动识别技术的关键与核心算法鄭 方fzhengd-E; ,北京得意音通技术有限责任公司清华大学智能技术与系统国家重点实验室,公安部科技局/北京市公安局声纹鉴定与自动识别技术应用研讨会2002年9月16日,地址:北京市海淀区上地信息路2号D栋505室电话/传真:(8610)8289 6531邮编:100085,公司简介,3,公司核心技术概述三大核心技术方向,语音识别(ASR):“音字”的转换,语言理解(NLU):“字意”的转换,声纹识别(SpkID):谁的声音?,声学模型,语言模型,语义分析,对话管理,共性特征提取,规则提取,声纹辨认,声纹确认,个性特征提取,得意公司是从事语音识别与语言理解

2、的专业技术公司,降噪音处理,4,公司核心技术概述六大应用方向,中文整句输入法 d-Ear IME得意输入法,声纹识别d-Ear ID得意身份证,语音命令与控制d-Ear Command得意命令,语言理解d-Ear Parser得意分析器,语言学习d-Ear Teacher得意教师,关键词检出d-Ear Word-Spotter得意关键词检出器,刑侦:辨认,国防监听:辨认,银行证券:确认,嵌入式命令导航,声控拨号,家电控制,智能玩具,网上智能信息检索,计算机辅助教学,智能玩具,口语对话系统,呼叫中心,随意语音命令导航,自动总机接驳,国防监听,呼叫中心,笔划输入法,数字输入法,拼音输入法,个性化:

3、确认,5,公司技术力量,主要的创业者和技术、管理团队都毕业于清华大学计算机科学与技术系,技术队伍均为计算机应用专业的博士,并有在国内外著名公司工作的经验。得意公司技术源自清华大学,并有面向市场的进一步发展。得意公司与清华大学智能技术与系统国家重点实验室建有“清华得意语音技术联合实验室”,结成了牢固的“产学研”联盟。与中国军方、中国刑警学院等有良好的合作,6,清华大学语音技术中心 (Center of Speech Technology),成立于1979年,隶属清华大学智能技术与系统国家重点实验室。全国最早从事语音和语言处理的研究单位之一。智能技术与系统国家重点实验室(LITS)是在信息技术领域

4、处于全国领先地位的国家重点实验室,在1994年、1997年和2002年国家计委组织的全部三次全国国家重点实验室评审中均为A 。语音技术中心承担国家重点攻关任务、863高科技研究任务、973重点基础研究任务、军方科研任务、清华大学一流大学重点学科建设985项目,以及许多国际和国内合作项目等,并多次获奖。语音技术中心研制成功的语音技术在国家863评测中一直名列前茅;在国际国内的会议和各种学术刊物上发表论文数百篇;同时研发了数十项语音产品,行销于国内外市场。其中声纹识别产品有成功的应用范例(北京某通讯公司)。语音技术中心的成果和相关论文请参见http:/。,声纹识别核心技术,8,说话人识别的两个阶段

5、,模型训练学习识别,9,说话人识别的分类,按识别任务分说话人辨认说话人确认,是哪个人的声音?,是XX的声音吗?,10,开集说话人辨认和说话人确认中的拒识问题似然分数的计算p(X|S) / p(X | Bkg(S)冒名顶替者(Impostor)模型或背景(Background)模型Bkg使用一个与说话人无关的统一模型UBM (Universal Background Model):pS(X|H0) = p(X|UBM)使用一组其他说话人模型:pS(X|H0) = p(X|Bkg(S),其中Bkg(S)是与说话人S相关的那些说话人模型的某种函数,如“平均”或“最大”,11,按说话内容分文本无关(T

6、ext-Independent)不限定说什么文本语种无关 (Language-Independent)语种相关 (Language-Dependent)文本相关(Text-Dependent)必须是特定的文本必定语种相关,12,说话人识别需要攻克的难题,更具可分性的特征:多层次特征的使用好的说话人模型:GMM、LBG等短话音问题:训练:基准模型自适应识别:累计判别说话人发音方式发生变化(语言、内容、方式、身体状况、不同时间等):learning+adaptation模仿声音问题:综合使用各种层次的特征;外加密码多说话人情况下的说话人检测:有限状态自动机:已有说话人集冒名者说话人改变检测(SCD

7、),13,多说话人检测,14,说话人识别的特征提取,人类在进行说话人识别时常常用到多个层面(尤其是高层)的信息语义、修辞、发音、言语习惯 社会经济状况、受教育水平、出生地韵律、节奏、速度、语调、音量 个人特点、父母影响语音的声学特性、鼻音、带深呼吸的、沙哑的等 发音机制的解剖学结构现阶段很多系统只用到低层信息声学特征高层次的信息包括语速时序模板基音模板特性词/词组的使用特性发音笑声声纹自动识别模型目前可以使用的特征:声学特征 (倒频谱)词法特征 (说话人相关的词ngram,音素ngram)韵律特征 (利用ngram描述的基音和能量“姿势”)语种、方言和口音信息通道信息 (使用何种通道),15,

8、将特征用于说话人识别的问题求解argmax Prob (S | O)S 说话人O 观察序列观察序列,即特征序列,必须对说话人具有可分性:O=X, W, F, C, 声学特征(MFCC/LPCC):X = x1, x2, , xT词法特征(词、短语、音素等):W = w1, w2, , wN韵律特征:F = F1, F2, , Fp通道信息:C = PC麦克风、固话、免提、手机、手持设备、会议室麦克风, ,16,文本相关的说话人识别器,说话人相关的韵律模型,说话人相关的语言模型,说话人的通道信息,说话人的先验知识,声学特征(MFCC/LPCC):X = x1, x2, , xT词法特征(词、短语

9、、音素等):W = w1, w2, , wN韵律特征:F = F1, F2, , Fp通道信息:C = PC麦克风、固话、手机、手持设备、免提、会议室麦克风, ,17,特征的选择用还是不用?例如,信道的信息在刑侦应用上,希望不用,也就是说希望弱化信道对说话人识别的影响在银行交易上,希望用,即希望信道对说话人识别有较大影响,从而剔除录音、模仿等,18,说话人模式匹配,模板匹配动态时间弯折(DTW)用以对准训练和测试特征序列主要用于固定词组的应用(通常为文本相关任务)最近邻训练时保留所有特征矢量测试时,对每个矢量都找到训练矢量中最近的K个模型存储和相似计算的量都很大神经网络有很多种形式:多层感知、

10、径向基函数(RBF)等;显式训练以区分说话人和其背景说话人训练量很大,且模型的可推广性不好HMM单状态的HMM(GMM)多项式分类器有较高的精度模型存储和计算量比较大,19,观察序列为:多项式分类器:每一帧矢量Xt(t=1,T)都按多项式展开映射到高维空间中,例如二阶多项式展开把矢量X=x1, x2, , xNT映射成在高维空间中,利用一个线性分类器可以把用户特征(Xusr)与其他的冒名顶替者特征(Ximp)分开。线性分类器的构造准则是使下面的均方误差(MSE)最小:通用线性分类边界可以表示为f (X) = 其中W通过矩阵分解法进行优化,每个说话人对于一个W。这样,每一帧矢量Xt都赋予了一个分

11、数f (Xt)。识别时,相对于说话人M的模型的总分数定义为三阶的多项式分类器就可以取得较好的效果: 平均ERR=0.38%;SID error=1.01%,20,观察序列为:高斯混合模型(GMM):是一个单状态的HMM。观察序列的似然分为:VQ聚类模型(LBG):每个说话人有Q个类观察序列的似然分为,21,说话人识别中的两难问题平衡点的选取,从研究的角度讲,说话人识别的应用存在很多而难选择,也就是说,需要进行平衡点的选择话音长短与识别率文本相关与无关信道影响检出率与拒识率,22,25%,文本无关(朗读句子)军用无线数据多个无线接收装置和麦克风训练数据适量,10%,文本无关(对话)电话数据多个麦

12、克风训练数据适量,1%,文本相关(数字串)电话数据多个麦克风训练数据量较小,0.1%,文本相关(组合)干净数据单个麦克风大量训练/测试数量,限 制 增 加,23,DET (Detection Error Tradeoff) 曲线,等错误率(ERR)=1%,平衡点,有线传输:错误接受的代价很大为了安全性考虑用户可以容忍拒绝,高安全性,高方便性,Toll Fraud:错误拒识率很低欺骗者很容易进入系统,我们的声纹识别技术介绍,25,说话人识别目前性能指标,语言无关文本无关训练语音最短8秒测试语音最短4秒测试结果120人的库(近期目标1,000人)24秒8秒一选正确率:98.33%二选:100,26,成功应用案例一,电话语音个性化服务方面:机器自动识别客户身份后,提供相应服务客户并不知道系统正在进行声纹识别,因此说话内容随意;说话方式自然;说话长度很短;同时有客户和接线员两人通话,27,应用案例二,应用于“得意”接线员系统中客户通过电话说出要找人的姓名,方式:单命令识别,或关键词检出话音长度比较短“得意”接线员将识别出:客户要找的人的姓名客户的身份(开集说话人辨认)“得意”接线员转接时,将首先告知对方是谁的电话,得意语音与您心意相通的人性科技,The End.,

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。