ImageVerifierCode 换一换
格式:PPT , 页数:35 ,大小:720KB ,
资源ID:297789      下载积分:10 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-297789.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(【人工智能_人工智能导论课件】第10章自然语言理解.ppt)为本站会员(您的****手)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

【人工智能_人工智能导论课件】第10章自然语言理解.ppt

1、第 10 章 自然语言处理及其应用,教材: 王万良人工智能导论(第3版) 高等教育出版社,第10章 自然语言处理及其应用,如果计算机能够理解、处理自然语言,这将是计算机技术的一项重大突破。自然语言理解的研究在应用和理论两个方面都具有重大的意义。本章首先自然语言理解的概念以及发展历史,然后从应用角度介绍机器翻译和语音识别技术。,2,第10章 自然语言处理及其应用,10.1 自然语言理解的概念与发展历史 10.2 语言处理过程的层次10.3 机器翻译10.4 语音识别,3,第10章 自然语言处理及其应用,10.1 自然语言理解的概念与发展历史 10.2 语言处理过程的层次10.3 机器翻译10.4

2、 语音识别,4,10.1.1 自然语言理解的概念,微观角度:从自然语言到机器内部的一个映射。宏观角度:使机器能够执行人类所期望的某种语言功能。,(1)回答问题:计算机正确地回答用自然语言输入的有关问题。(2)文摘生成:机器能产生输入文本的摘要。 (3)释义:机器能用不同的词语和句型来复述输入的自然语言信息。(4)翻译:机器能把一种语言翻译成另外一种语言。,5,10.1.2 自然语言理解研究的产生与发展,1. 萌芽时期(20世纪40年代末50年代初),2. 以关键词匹配技术为主的时期 (20世纪60年代始),A. Donald Booth & W. Weaver M. Chomsky 形式语言和

3、文法,3. 以句法语义分析技术为主的时期 ( 20世纪70年代后),4. 基于知识的自然语言理解发展时期,5. 基于大规模语料库的自然语言理解发展时期,68年B. Raphael:语义检索系统SIRJ. Weizenbaum:心理医疗ELIZA,72年W. Woods:语音接口LUNART. Winograd :英语对话SHEDLU,6,第10章 自然语言处理及其应用,10.1自然语言理解的概念与发展历史 10.2 语言处理过程的层次10.3 机器翻译10.4 语音识别,7,文字表达句子的层次:词素词或词形词组或句子。声音表达句子的层次:音素音节音词音句。 语言处理过程分为五个层次:语音分析、

4、词法分析、句法分析、语义分析和语用分析。 语用分析:研究语言所存在的外界环境对语言使用产生的影响。构成单词发音的独立单元是音素。上下文不同而发音不同。 语音分析就是根据音位规则,从语言流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。,10.2 语言处理过程的层次,8,1. 词法分析,定义:从句子中切分出单词,找出词汇的各个词素 ,并确定其词义。,例:unchangeable: un-change-able,英语词法分析 特点:切分单词容易,找出词素复杂。,例:importable分为 import-able或 im-port-able,词法分析算法举例:repe

5、atlook for word in dictionary if not found then modify the wordUntil word is found or no further modification possible,9,1. 词法分析,例如:对于单词catches、ladies可以做如下的分析。 catches ladies, 词典中查不到 catche ladie 修改1:去掉s catch ladi 修改2:去掉e lady 修改3:把i变成y这样,在修改2的时候,就可以找到catch,在修改3的时候就可以找到lady。,例如:优秀人才学人才学1. 优秀人才学人才学2

6、. 优秀人才学人才学,汉语词法分析 特点:找出词素简单,切分出词困难。,ly副词后辍;ed动词过去分词,10,1型文法: 上下文有关文法,2型文法:上下文无关文法,3型文法:正则文法,左线性文法:ABt 或 At(ABtCt*t)右线性文法 : AtB或At,产生式规则: xy,产生式规则: xy例:ABCDE ABCDE XaYXbY,产生式规则:Ax,0型文法:无约束短语结构文法,2. 句法分析: 乔姆斯基的形式文法,11,3. 语义分析,语义分析是将句法成分与应用领域中的目标表示相关联。,简单做法:依次使用独立的句法分析程序和语义解释程序。缺点:使句法分析、语义分析分离,语义文法格文法,

7、12,语义文法是将文法知识和语义知识组合起来,以统一的方式定义为文法规则集。,舰船信息:SPRESENT the ATTRIBUTE OF SHIPPRESENTWhat is|Can you tell meATTRIBUTElength|classSHIPthe SHIPNAME|CLASSNAMESHIPNAMEHUANGHE|CHANGJIANGCLASSNAMEcarrier|submarine,3. 语义分析,13,目的:为了找出动词和跟动词处在结构关系中的名词的语义关系,同时也涉及动词或动词短语与其他的各种名词短语之间的关系。,特点:允许以动词为中心构造分析结果,尽管文法规则只描述

8、句法,但分析结果产生的结构却对应于语义关系,而非严格的句法关系。,例:Mary hit Bill Bill was hit by Mary (Hit(Agent Mary) (Dative Bill),3. 语义分析,14,S,S,NP,NP,VP,VP,V,NP,V,PP,Bill,Mary,hit,was hit,by,Bill,Mary,主动句和被动句的句法分析树,3. 语义分析,15,第10章 自然语言理解及其应用,10.1 自然语言理解的概念与发展历史 10.2 语言处理过程的层次10.7 机器翻译10.8 语音识别,16,10.3 机器翻译,10.3.1 机器翻译方法概述 10.3

9、.2 翻译记忆,17,10.3.1 机器翻译方法概述,发展历程:,18,1. 直译式翻译系统(direct translation MT systems) 通过快速的分析和双语词典,将原文译出。,2. 规则式翻译系统(rule-based MT systems) 先分析原文内容,产生原文的句法结构,再转换成译 文的句法结构,最后再生成译文。,10.3.1 机器翻译方法概述,19,3. 中介语式翻译系统(inter-lingual MT systems) 先生成一种中介的表达方式,而非特定语言的结构; 再由中介的表达式,转换成译文。,基于规则的翻译,中介语式的翻译,10.3.1 机器翻译方法概述

10、,20,4. 知识库式翻译系统(knowledge-based MT systems) 翻译经常需要除了词汇之外的各种知识,使用知识获取工具(knowledge acquisition),以充实知识库的内容。,6. 范例式翻译系统(example-based MT systems ) 将过去的翻译结果,当成范例,产生一个范例库。,5. 统计式翻译系统(Statistics-based MT systems ) 源语言中任一句子都可能是目标语言中某些句子相似。,7. 混合式翻译系统(Statistics-based MT systems ) 同时采用多种策略,以达成翻译的目标。,10.3.1 机

11、器翻译方法概述,21,基本原理:用户利用已有的原文和译文,建立起一个或多个翻译记忆库,在翻译过程中,系统将自动搜索翻译记忆库中相同或相似的翻译资源(如句子、段落等),给出参考译文,使用户避免无谓的重复劳动,只需专注于新内容的翻译。翻译记忆库同时在后台不断学习和自动储存新的译文,变得越来越“聪明”。,德国塔多思(TRADOS)公司的翻译记忆软件基于UNICODE(统一字符编码),支持55种语言,覆盖了几乎所有语言版本的 Windows9598NT 。,10.3.2 翻译记忆,22,第10章 自然语言理解及其应用,10.1 自然语言理解的概念与发展历史 10.2 语言处理过程的层次10.3 机器翻

12、译10.4 语音识别,23,10.4.1 语言识别的概念,语音识别用语音作为输入,口语对话与语音信号中语言提取的不同: (1)上下文猜测 (2)肢体语言传达信息,机器翻译用印刷文本作为输入,能清楚地区分单个单词和单词串 。,fare | fairmale | mail,24,10.4.2 语音识别的主要过程,1.语音信号采集 基于单片机,DSP芯片 基于PC机,2.语音信号预处理预滤波(1)抑制输入信号各频域分量中频率超出采样频率的一半的所有分量,以防止混叠干扰。(2)抑制50Hz的电源工频干扰。,25,语音信号预处理 采样:对信号进行量化,量化不可避免地会产生误差。量化后的信号值与原信号值之

13、间的差值为量化误差,又称为量化噪声。 预加重:是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。 端点检测:包含语音的一段信号中确定出语音的起点以及终点。,10.4.2 语音识别的主要过程,26,过零率:信号中波形穿越零电平的次数来描述幅度变化的剧烈程度。,ZCR(i) =|sgn(xi(n)sgn(xi(n+1)|,10.4.2 语音识别的主要过程,27,声波有两个主要特征:振幅和频率。 线性预测编码(LPC): 基本思想:由于语音样点之间存在相关性,所以可以用过去p个样点值来预测现在或未来的样点值。,10.4.2 语音

14、识别的主要过程,28,矢量量化(vector quantization,VQ)技术是七十年代后期发展起来的一种数据压缩和编码技术。在标量量化中整个动态范围被分成若干个小区间,每个小区间有一个代表值,对于一个输入的标题信号,量化时落入小区间的值就用这个代表值代替。,矢量量化的基本原理:将若干个标量数据组成一个矢量在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。,10.4.2 语音识别的主要过程,4.向量量化,29,5.识别。识别系统的输入是从语音信号中提出的特征参数语音识别所采用的方法一般有:(1)模板匹配法。在训练阶段,用户将词汇表中的每一个词依次说一遍,将其特征矢量作为模

15、板存入模板库。在识别阶段,将输入语音的特征矢量序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。 (2)随机模型法。如隐马尔可夫模型(HMM)。用HMM的概率参数来对似然函数进行估计与判决,从而得到识别结果。 (3)概率语法分析法。不同的人说同一些语音时,相应的语谱总有一些共同的特点以区分于其他语音。将区别性特征与来自构词、句法、语义等语用约束相互结合,构成由底向上或自顶向下的交互作用知识系统。,10.4.2 语音识别的主要过程,30,10.4.3 隐马尔可夫模型,隐马尔可夫模型: 表示序列可能出现的一种方法。,y跟在ph后面出现的概率跟在t后面出现的概率,例 序列:

16、1 2 3 3 4。则概率0.90.50.40.6=0.108,31,状态隐含,观察可测,10.4.4 基于隐马尔可夫模型的语音识别方法,(1)观察符号是一帧帧的语音参数(2)状态序列是具体的语音内容,LPC或MFCC,前进,后退,例:,32,解决三个基本问题:,(1)输出概率计算问题:给定观察序列 和HMM模型,计算输出概率 。(2)状态序列解码问题:给定观察序列 和HMM模型,确定最优的转移序列。(3)模型参数估计问题:调整模型 的参数,以使 最大。,10.4.4 基于隐马尔可夫模型的语音识别方法,33,输入语音,比较结果,10.4.4 基于隐马尔可夫模型的语音识别方法,基于HMM的孤立字(词)识别,34,THE END,Introduction of Artificial Intelligence,35,

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。