资源描述
声纹自动识别技术的关键与核心算法鄭 方fzheng@d-Ear.com; fzheng@sp.cs.tsinghua.edu.cn,北京得意音通技术有限责任公司
清华大学智能技术与系统国家重点实验室,公安部科技局/北京市公安局《声纹鉴定与自动识别技术应用研讨会》
2002年9月16日,地址:北京市海淀区上地信息路2号D栋505室电话/传真:(8610)8289 6531邮编:100085,公司简介,3,公司核心技术概述--三大核心技术方向,语音识别(ASR):“音字”的转换,语言理解(NLU):“字意”的转换,声纹识别(SpkID):谁的声音?,声学模型,语言模型,,,,语义分析,对话管理,,,,共性特征提取,规则提取,声纹辨认,声纹确认,,,,个性特征提取,得意公司是从事语音识别与语言理解的专业技术公司,降噪音处理,,,4,公司核心技术概述--六大应用方向,中文整句输入法 d-Ear IME得意输入法,,,声纹识别d-Ear ID得意身份证,,,语音命令与控制d-Ear Command得意命令,,,语言理解d-Ear Parser得意分析器,,,语言学习d-Ear Teacher得意教师,,,关键词检出d-Ear Word-Spotter得意关键词检出器,,,刑侦:辨认,国防监听:辨认,银行证券:确认,嵌入式命令导航,,声控拨号,,家电控制,,智能玩具,,网上智能信息检索,,计算机辅助教学,,智能玩具,,口语对话系统,呼叫中心,,随意语音命令导航,,自动总机接驳,,国防监听,,呼叫中心,,笔划输入法,数字输入法,,,,拼音输入法,,,,,个性化:确认,,5,公司技术力量,主要的创业者和技术、管理团队都毕业于清华大学计算机科学与技术系,技术队伍均为计算机应用专业的博士,并有在国内外著名公司工作的经验。
得意公司技术源自清华大学,并有面向市场的进一步发展。得意公司与清华大学智能技术与系统国家重点实验室建有“清华—得意语音技术联合实验室”,结成了牢固的“产学研”联盟。
与中国军方、中国刑警学院等有良好的合作,6,清华大学语音技术中心 (Center of Speech Technology),成立于1979年,隶属清华大学智能技术与系统国家重点实验室。全国最早从事语音和语言处理的研究单位之一。
智能技术与系统国家重点实验室(LITS)是在信息技术领域处于全国领先地位的国家重点实验室,在1994年、1997年和2002年国家计委组织的全部三次全国国家重点实验室评审中均为A 。
语音技术中心承担国家重点攻关任务、863高科技研究任务、973重点基础研究任务、军方科研任务、清华大学一流大学重点学科建设985项目,以及许多国际和国内合作项目等,并多次获奖。
语音技术中心研制成功的语音技术在国家863评测中一直名列前茅;在国际国内的会议和各种学术刊物上发表论文数百篇;同时研发了数十项语音产品,行销于国内外市场。其中声纹识别产品有成功的应用范例(北京某通讯公司)。
语音技术中心的成果和相关论文请参见
http://sp.cs.tsinghua.edu.cn。,,声纹识别核心技术,8,说话人识别的两个阶段,模型训练--学习
识别,9,,说话人识别的分类,按识别任务分
说话人辨认
说话人确认,是哪个人的声音?,是XX的声音吗?,10,,开集说话人辨认和说话人确认中的拒识问题
似然分数的计算
=p(X|S) / p(X | Bkg(S))
冒名顶替者(Impostor)模型或背景(Background)模型Bkg
使用一个与说话人无关的统一模型UBM (Universal Background Model):pS(X|H0) = p(X|UBM)
使用一组其他说话人模型:pS(X|H0) = p(X|Bkg(S)),其中Bkg(S)是与说话人S相关的那些说话人模型的某种函数,如“平均”或“最大”,11,,按说话内容分
文本无关(Text-Independent)--不限定说什么文本
语种无关 (Language-Independent)
语种相关 (Language-Dependent)
文本相关(Text-Dependent)--必须是特定的文本
必定语种相关,12,说话人识别需要攻克的难题,更具可分性的特征:多层次特征的使用
好的说话人模型:GMM、LBG等
短话音问题:
训练:基准模型+自适应
识别:累计判别
说话人发音方式发生变化(语言、内容、方式、身体状况、不同时间等):learning+adaptation
模仿声音问题:综合使用各种层次的特征;外加密码
多说话人情况下的说话人检测:
有限状态自动机:已有说话人集+冒名者
说话人改变检测(SCD),13,,多说话人检测,14,说话人识别的特征提取,人类在进行说话人识别时常常用到多个层面(尤其是高层)的信息
语义、修辞、发音、言语习惯 - 社会经济状况、受教育水平、出生地
韵律、节奏、速度、语调、音量 - 个人特点、父母影响
语音的声学特性、鼻音、带深呼吸的、沙哑的等 - 发音机制的解剖学结构
现阶段很多系统只用到低层信息--声学特征
高层次的信息包括
语速
时序模板
基音模板
特性词/词组的使用
特性发音
笑声
……
声纹自动识别模型目前可以使用的特征:
声学特征 (倒频谱)
词法特征 (说话人相关的词ngram,音素ngram)
韵律特征 (利用ngram描述的基音和能量“姿势”)
语种、方言和口音信息
通道信息 (使用何种通道),15,,将特征用于说话人识别的问题求解
argmax Prob (S | O)
S – 说话人
O - 观察序列
观察序列,即特征序列,必须对说话人具有可分性:O={X, W, F, C, …}
声学特征(MFCC/LPCC): X = { x1, x2, …, xT}
词法特征(词、短语、音素等): W = { w1, w2, …, wN}
韵律特征: F = { F1, F2, …, Fp}
通道信息: C = { PC麦克风、固话、免提、手机、 手持设备、会议室麦克风, …},16,,文本相关的说话人识别器,说话人相关的韵律模型,说话人相关的语言模型,说话人的通道信息,说话人的先验知识,声学特征(MFCC/LPCC): X = { x1, x2, …, xT}
词法特征(词、短语、音素等): W = { w1, w2, …, wN}
韵律特征: F = { F1, F2, …, Fp}
通道信息: C = { PC麦克风、固话、手机、 手持设备、免提、会议室麦克风, …},17,,特征的选择-用还是不用?
例如,信道的信息
在刑侦应用上,希望不用,也就是说希望弱化信道对说话人识别的影响
在银行交易上,希望用,即希望信道对说话人识别有较大影响,从而剔除录音、模仿等,18,说话人模式匹配,模板匹配
动态时间弯折(DTW)用以对准训练和测试特征序列
主要用于固定词组的应用(通常为文本相关任务)
最近邻
训练时保留所有特征矢量
测试时,对每个矢量都找到训练矢量中最近的K个
模型存储和相似计算的量都很大
神经网络
有很多种形式:多层感知、径向基函数(RBF)等;
显式训练以区分说话人和其背景说话人
训练量很大,且模型的可推广性不好
HMM
单状态的HMM(GMM)
多项式分类器
有较高的精度
模型存储和计算量比较大,19,,观察序列为:
多项式分类器:
每一帧矢量Xt(t=1,…,T)都按多项式展开映射到高维空间中,例如二阶多项式展开把矢量X=[x1, x2, …, xN]T映射成
在高维空间中,利用一个线性分类器可以把用户特征(Xusr)与其他的冒名顶替者特征(Ximp)分开。线性分类器的构造准则是使下面的均方误差(MSE)最小:
通用线性分类边界可以表示为f ((X)) =
其中W通过矩阵分解法进行优化,每个说话人对于一个W。这样,每一帧矢量Xt都赋予了一个分数f ((Xt))。识别时,相对于说话人M的模型的总分数定义为
三阶的多项式分类器就可以取得较好的效果: 平均ERR=0.38%;SID error=1.01%,,,,20,,观察序列为:
高斯混合模型(GMM):
是一个单状态的HMM。观察序列的似然分为:
VQ聚类模型(LBG):
每个说话人有Q个类
观察序列的似然分为,,,,,21,说话人识别中的两难问题--平衡点的选取,从研究的角度讲,说话人识别的应用存在很多而难选择,也就是说,需要进行平衡点的选择
话音长短与识别率
文本相关与无关
信道影响
检出率与拒识率,22,,,25%,文本无关
(朗读句子)
军用无线数据
多个无线接收装置和麦克风
训练数据适量,,10%,文本无关
(对话)
电话数据
多个麦克风
训练数据适量,,1%,文本相关
(数字串)
电话数据
多个麦克风
训练数据量较小,,0.1%,文本相关
(组合)
干净数据
单个麦克风
大量训练/测试数量,限 制 增 加,23,,DET (Detection Error Tradeoff) 曲线,,,,,,,,等错误率(ERR)=1%,平衡点,有线传输:
错误接受的代价很大
为了安全性考虑用户可以容忍拒绝,高安全性,高方便性,Toll Fraud:
错误拒识率很低
欺骗者很容易进入系统,我们的声纹识别技术介绍,25,说话人识别目前性能指标,语言无关
文本无关
训练语音最短8秒
测试语音最短4秒
测试结果
120人的库(近期目标1,000人)
24秒+8秒
一选正确率:98.33%
二选:100%,26,成功应用案例一,电话语音
个性化服务方面:机器自动识别客户身份后,提供相应服务
客户并不知道系统正在进行声纹识别,因此
说话内容随意;
说话方式自然;
说话长度很短;
同时有客户和接线员两人通话,27,应用案例二,应用于“得意”接线员系统中
客户通过电话说出要找人的姓名,方式:
单命令识别,或关键词检出
话音长度比较短
“得意”接线员将识别出:
客户要找的人的姓名
客户的身份(开集说话人辨认)
“得意”接线员转接时,将首先告知对方是谁的电话,得意语音—— 与您心意相通的人性科技,The End.,
展开阅读全文
相关搜索