ImageVerifierCode 换一换
格式:PPT , 页数:52 ,大小:1.44MB ,
资源ID:297691      下载积分:10 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-297691.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(【人工智能_编译new】第二章词法分析.ppt)为本站会员(您的****手)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

【人工智能_编译new】第二章词法分析.ppt

1、第二章 词法分析,词法分析的任务:,从左至右逐个字符地扫描源程序,产生一个个的单词符号,把作为字符串的源程序改造成为单词符号串的中间程序。,词法分析器/扫描器:执行词法分析的程序。,源程序,扫描器scanner,1、关键字,词法分析器的功能如下图所示:,2、标识符,5、界符,4、运算符,3、常数,由程序语言定义的具有固定意义的标识符。也可称为保留字或基本字。例如:Pascal中的begin,end,if等。,界符:如逗号、分号、括号、/*,*/ 等。它是确定的。,运算符:如+、-、*、/ 等。它是确定的。,常数的类型一般有整型、实型、布尔型、文字型等。它是不限的。,用来表示各种名字,如变量名、

2、数组名、过程名等。它是不限的。,2.1对词法分析器的要求,2.1.1词法分析器的功能和输出形式,词法分析器的功能:输入源程序,输出单词符号。单词符号:一个程序语言的基本语法符号。分为以下5种。 1、关键字:由程序语言定义的具有固定意义的标识符。也可称为保留字或基本字。例如:Pascal中的begin,end,if等。它是确定的。 2、标识符:用来表示各种名字,如变量名、数组名、过程名等。它是不限的。 3、常数:常数的类型一般有整型、实型、布尔型、文字型等。它是不限的。 4、运算符:如+、-、*、/ 等。它是确定的。 5、界符:如逗号、分号、括号、/*,*/ 等。它是确定的。,确定,不限,单词符

3、号的表示形式:词法分析器所输出的单词符号常常表示成 二元式(单词种别,单词自身的值)。 单词种别可以用以下形式表示: 1、一类单词统一用一个整数值代表其属性。例如:1代表关键字,2代表标识符等。 2、每一个单词一个类别。例如:1代表BEGIN,2代表END等。单词自身的值可以表示成:常量的二进制表示;常量、变量等在符号表种的地址码,等等。,注意:一个语言的单词符号如何分种,分几种,怎样编码,是一个技术问题。标识符一般同归为一种。常数则宜按类型(整、实、布尔)分。关键字可以将其全体视为一种,也可一字一种。运算符可采用一符一种,但也可把具有一定共性的视为一种。界符则一般采用一符一种。如何进行分种主

4、要取决于处理上的方便。 若是一符一种分种,单词自身值就不需要了。否则,要查符号表。,例2-1:151FORTRAN编译程序的词法分析器在扫描输入串 IF (5EQM) GOTO 100 后,它输出的单词符号串是:,逻辑IF (34,_) 左括号 (2,_) 整常数 (20,5的二进制表示) 等号 (6,_) 标识符 (26,M) 右括号 (16,_) GOTO (30,_) 标号 (19,100的二进制表示),IF为关键字,种别编码34,采用一符一种的编码方式。,常数类型,种别编码20,单词自身的值为5的二进制表示。,(为界符,种别编码2,采用一符一种的编码方式。,等号为运算符,种别编码6,采

5、用一符一种的编码方式。,M为标识符,种别编码26,单词自身值为M。,)为界符,种别编码16,采用一符一种的编码方式。,GOTO为关键字,种别编码30,采用一符一种的编码方式。,100为标号,种别编码19,单词内部的值用100的二进制表示。,例2-2 :下述C+代码段:while ( i = j ) i - -; 经词法分析器处理以后,它将被转换为如下的单词符号串,( while ,_ )( ( ,_ )( id ,指向i的符号表指针 )( = ,_ )( id ,指向j的符号表指针 )( ) ,_ )( id ,指向i的符号表指针 )( - - ,_ )( ; ,_ ),2.1.2词法分析与语

6、法分析的关系,1、把词法分析从语法分析中脱离出来的优点:使编译程序的结构更加简洁、清晰和条理化。词法分析和语法分析方法不同,词法分析可以使用正则文法自动构造scanner简单。有利于提高语法分析的效率。可以改善词法分析的细节,甚至于一个语法分析配几个scanner,把不同的输入变成一种内部表示。2、把词法分析作为独立的一遍scanner当作一遍。把scanner当作子程序。,2.2词法分析器的设计,设计前提: 把scanner作为一个独立的子程序; 词法分析器的任务为输出单词符号。,2.2.1预处理,必要性:编辑性字符如空白符、回车符等,除了出现在文字和 常数中以外,在别处出现都没有意义。功

7、能: 剔除无用字符。实 现: 预处理子程序。,若识别输入语句 IF (5.EQ.M) GOTO 100,若缓冲区情况如下所示:,扫描缓冲区的结构: 缓冲区大小:120个字符。 采用两个指示器:起点指示器、搜索指示器。 两个互补区。,2.2.2单词符号的识别超前搜索,单词符号识别的简单方法:超前搜索。关键字识别: 例如:在标准FORTRAN中 1、DO99K = 1,10 2、IF(5.EQ.M)I = 10 3、DO99K = 1.10 4、IF(5) = 55,其中的DO、IF为关键字,其中的DO、IF为标识符的一部分,标识符的识别 多数语言的标识符是字母开头的“字母/数字”串,而且在程序中

8、标识符的出现后都跟着算符或界符。因此,不难识别。常数的识别 对于某些语言的常数的识别也需要使用超前搜索。算符和界符的识别 对于诸如C+语言中的“+ +”、“- -”,这种复合成的算符,需要超前搜索。,2.2.3状态转换图,转换图:是一张有限方向图。在状态转换图中,结点代表 状态,用圆圈表示。状态之间用箭弧连接。箭弧上的标记(字符)代表在射出结状态下可能出现的输入字符或字符类。状态转换图的功能:用于识别一定的字符串。初态:一张转换图的启动条件,至少有一个,用圆圈表示。终态:一张转换图的结束条件,至少有一个,用双圈表示。* :表示多读进了一个字符。,2,0,1,字母,其他,字母或数字,*,(b)识

9、别标识符的转换图,例2-3:简单的状态转换图示例:,初态,终态,从0状态到1状态可能出现字母,例2-4:识别FORTRAN实型常数的转换图:,例如下列实型常数可以被以下转换图识别: 1.23E+4 .56E-7,例2-5:综合实例做出识别下表所示的小语言的单词符号的状态转换图,右图即为对上页所示的简单语言进行词法分析的状态转换图。,2.2.4状态转换图的实现,1、CHAR 字符变量,存放最新读进的源程序字符。2、TOKEN 字符数组,存放构成单词的字符串。3、GETCHAR 过程,将下一输入字符读入CHAR,搜索指示器前移一个字符。4、GETBC 过程,检查CHAR中的字符是否为空白。若是,则

10、调用GETCHAR 直至CHAR中进入一个非空白字符。5、CONCAT 过程,把CHAR中的字符连接到TOKEN之后。6、LETTER 布尔函数过程,它们分别判断CHAR中的字符是数字或是字母, DIGIT 从而给出真假值TRUE、FALSE。7、RESERVE 整型函数过程,用TOKEN中的字符串查保留字表,若是一个保留 字则给予编码,否则回送0值(假定0不是保留字的编码)。8、RETRACT 过程,把搜索指示器回调一个字节,把CHAR中的字符置为空白。,以上函数和子程序过程都不难编制,使用它们能够方便的构造状态转换图的对应程序。一般,我们可以让每一个状态结对应一个程序段。 例如:我们可以让

11、不含回路的分叉结,对应一个CASE 语句,或者是一组IFTHENELSE语句。具体见后面实例。 终态结一般对应一个RETURN(C,VAL)语句。其中C为单词种别编码;VAL是字符数组的TOKEN ,或者是一个整数值,或者无定义。具体见后面实例。,为了把状态转换图转化成程序,每个状态要建立一段程序,它要做的工作如下:第一步:从输入缓冲区中取一个字符。为此,我们使用函数GETCHAR,每次调用它,推进先行指针,送回一个字符。第二步:确定在本状态下,哪一条箭弧是用刚刚来的输入字符标识的。如果找到,控制就转到该弧所指向的状态;若找不到,那么寻找该单词的企图就失败了。失 败:先行指针必须重新回到开始指

12、针处,并用另一状态图来搜索另一单词。如果所有的状态转换图都试过之后,还没有匹配的,就表明这是一个词法错误,此时,调用错误校正程序。,GETCHAR是过程,将下一输入字符读入CHAR,搜索指示器前移一个字符。,例26:以下CASE语句段对应的状态图:state i: GETCHAR; CASE CHAR OF A.Z: state j ; 0.9: state k ; / : state l ; END; FAIL,字符变量,存放最新读进的源程序字符。,过程,将下一输入字符读入CHAR,搜索指示器前移一个字符。,对于如上的状态转换图,状态0的代码如下所示: state 0: C := GETCH

13、AR ; if LETTER(C) then goto state 1 else FAIL( ),LETTER( )是布尔函数过程,当且仅当C中的字符是字母,它返回真假值TRUE。,FAIL( )是例子程序,它移回先行指针(lookahead pointer), 开始下一状态转换图,或调用出错程序。,例2-7:示例如何把状态结对应于一段程序:,*,对于如上的状态转换图,状态1的代码如下所示: state 1: C := GETCHAR ; if LETTER( C) or DIGIT(C) then goto state 1 else if DELIMITER(C) then goto sta

14、te 2 else FAIL( ),DIGIT( )是布尔函数过程,当且仅当C中的字符是数字,它返回真假值TRUE。,DELIMITER(C)是过程,只要碰到标识符后的分界符,它返回TRUE。分界符一般为:空格、算术、逻辑符号,括号、;、. 、,。,*,对于如上的状态转换图,终态状态2的代码如下所示: state 2: RETRACT( ) ; RETURN($id ,INSTALL( ) ),RETRACT( )是过程,由于分界符不属于标识符,所以我们要把先行指针回调一个字符。,INSTALL( )是过程,如我们识别出的标识符不在符号表中,我们把它装入符号表。我们还要给语法分析程序返回一个二

15、元式。,*,如果同时识别标识符和定义符,则需要修改为State2:,修改之后,状态2的代码如下所示: state 2: RETRACT( ) ; c := RESERVE( ); if c = 0 then RETURN($id ,INSTALL ) else RETURN(C , _ ),RESERVE( ) 整型函数过程,针对TOKEN中的字符串进行查找,看其是否是保留字,是保留字给出它的编码,否则回送0(假定0不是保留字编码)。,例28:以下程序段对应的状态图 state i:GETCHAR; WHILE LETTER OR DIGIT DO GETCHAR; state j:,布尔函数

16、过程,它们分别判断CHAR中的字符是数字或是字母,从而给出真假值TRUE、FALSE。,例29:以下程序段对应的状态图0 9:BEGIN WHILE DIGIT DO BEGIN CONCAT;GETCHAR END; RETRACT; RETURN($INT,DTB) ; END;,RETURN 语句,对应终态结,其中$INT为种别编码,DTB为一个把十进制转换到二进制的转换函数。它把TOKEN中的数字译成标准二进制码,并以此为函数值返回。,正规式与正规集的递归定义:1、和都是字母表上的正规式,它们所表示的正规集分别为和;2、任何a,a是上的一个正规式,它所表示的正规集为a;3、 正规式 正

17、规集 正规式 正规集 U L(U) (U | V) L(U)L(V) V L(V) (UV) L(U)L(V) (U)* L(U)*(闭包) 仅由有限次使用上述三步骤而得到的表达式才是上的正规式。仅由这 些正规式所表示的子集才是上的正规集。,2.3正规表达式与有限自动机,2.3.1正规式与正规集,运算符的优先顺序:先“*”,次“” ,最后“|”,* 的子集 U , V: 积 UV =| U & V n次积 V n= VVV V V0 = V的闭包 V* = V0 U V1 U V2 U V的正则闭包 V+ = V V*,例2-11:令a,b,下面是上的正规式和相应的正规集: 正规式 正规集 b

18、a* 上所有的以b为首,并且后跟任 意多个a的字,b, ba,baa,baaa, a(a|b)* 上所有的以a为首的字 (a|b)* (aa|bb) (a|b)* 上所有含有两个连续的a或者b的字,例2-10:令A,B,0,1,则: 正规式 正规集 (A|B)(A|B|0|1)* 上“标识符”的全体 (0|1)(0|1)* 上“数”的全体,若两个正规式表示相同的正规集,则认为二者等价,记为U=V。例如:b(ab)*=(ba)*b(a|b)*=(a*b*)*,令U、V和W均为正规式,显而易见,下列关系普遍成立: 1、U|V = V|U(交换律); 2、U|(V|W) = (U|V)|W(结合律)

19、; 3、U(VW) = (UV)W(结合律); 4、U(V|W) = UV|UW(分配律) (V|W)U = VU|WU; 5、U = U = U。,2.3.2确定有限自动机(DFA),一个确定有限自动机(DFA) M是一个五元式: M (S,s0 ,F) ,其中 1、S是一个有限集,它的每个元素称为一个状态 2、是一个有穷字母表,它的每个元素称为一个输入字符 3、是一个从S至S的单值部分映射。 (s,a)=s意味着:当现行状态为S、输入字符为a时,将转换到下一状态s。我们称s为s的一个后继状态。 4、 s0S是唯一的初态 5、 F S是一个终态集(可空)。,显然,一个DFA可用一个矩阵表示,

20、该矩阵的行表示状态,列表示输入字符,矩阵元素表示(s,a)的值。这个矩阵称为状态转换矩阵。,例2-12:有DFA M = (0,1,2,3,a,b,0,3)其中为: (0,a)=1 (0,b)=2 (1,a)=3 (1,b)=2 (2,a)=1 (2,b)=3 (3,a)=3 (3,b)=3,相应的状态转换矩阵如下表:,一个DFA也可用一张(确定的)状态转换图来表示。假定DFA M含有m个状态和n个输入字符,那么,这个状态转换图含有m个状态结点,每个结点顶多有n条箭弧射出和别的结点相连接,整张图含有一个初态结点和若干个(可以为0)终态结点。,3,0,1,图2.5 状态转换图,2,a,a,a,a

21、,b,b,b,如下表所示的状态转换矩阵对应的状态转换图如右图:,3,0,1,2,a,a,a,b,b,b,上图所示的状态转换图的S、及*如下: S = 0,1,2,3 = a,b *= | 为,或者为a、b的任意组合,从初态0到终态3有如图所示的通路,箭弧上到标记符连接起来的字aa属于*,所以右图所示的DFA可以识别字aa。,同理:从初态0到终态3还有如图所示的通路,箭弧上到标记符连接起来的字bba属于*,所以右图所示的DFA可以识别字bba。,a,例2-13:科学表示法中数字常量的正则表达式对应的DFA:,nat对应的DFA如下图,digit = 0-9,nat = digit +,signe

22、dNat = ( +|- )? nat,number = signedNat(“”nat)?,signedNat对应的DFA如下图,加上可选的小数部分,数字常量的正则表达式number = signedNat(“”nat)?对应的DFA如下图:,接受与正则式ab+|ab*|b* 相同的语言的DFA如下所示:,例2-14:串中只有一个b被如下所示的DFA接受:,例2-15:包含最多一个b的串被如下所示的DFA接受:,注意二者之间的区别,定理:如果一个DFA M 的输入字母表为,则我们也称M是上的一个 DFA。可以证明:上的一个字集V *是正规的,当且仅当存在上的DFA M,使得V =L(M)。,

23、DFA的确定性表现在映射: SS是一个单值函数。即:对于任何状态sS和输入符号a, (s,a)唯一确定了一个状态。 从转换图角度,我们也可以得到答案。 如果允许是一个多值函数,我们就得到下一节要讲到的非确定自动机的概念。,2.3.3非确定有限自动机(NFA),一个非确定有限自动机(NFA) M是一个五元式: M (S,S0 ,F) ,其中 1、S是一个有限集,它的每个元素称为一个状态 2、是一个有穷字母表,它的每个元素称为一个输入字符 3、是一个从S*至S的子集的映射,即: S* 2s 4、 S0S是唯一的初态 5、 F S是一个终态集(可空)。,一个含有m个状态和n个输入字符的NFA可用一张

24、如下的状态转换图来表示:该图含有m个状态结点,每个结点可以射出若干条弧与别的结点相连接,每条弧用*中的一个字(可以是不同的字,也可以是空字)做标记,整张图至少含有一个初态结点和若干个(可以为0)终态结点。某些结点既可以是初态结点也可以是终态结点。,1,aa,a,b,2,bb,ab,0,a,b,0,1,ab,ba,aa,bb,ab,ba,aa,bb,y,x,1,5,a,a,a,a,b,b,4,3,2,6,b,b,下图所示的状态转换图的S、及*如下: S = 0,1,2,3 = a,b *= | 为,或者为a、b的任意组合,对于*中的任何一个字,若存在一条从某一初态结点到某一终态结点的通路,且这条

25、通路上所有弧上的标记字依序连接成的字(忽略)等于,则称可以为NFA M 识别。,从初态x到终态y的连接通路弧上,有如下标记字: a a ,去除,为aa,所以字aa可为NFA接受。,1,4,3,2,a,a,b,例2-16:上图所示的NFA的以下两个转换序列都可以接受串abb:,允许接受ab,由此,我们可以看出这个NFA接受与正则式ab+|ab*|b* 相同的语言!,接受ab,接受ab接受ab,接受ab接受ab接受ab*,接受ab接受ab接受ab*接受b*,练习:考虑以下NFA通过怎样的转换接受串acab:,10,a,2,1,b,3,7,5,6,4,8,9,c,DFA是NFA的特例,可以采用子集法

26、将NFA确定化。,假定I是NFA M的状态集的一个子集, 我们定义_CLOSURE(I)为:,1、若sI,则s _CLOSURE(I);,2、若sI,那么从s出发经过任意条弧而能到达的任何状态s都属于_CLOSURE(I)。,状态集_CLOSURE(I)称为I的_闭包。,_CLOSURE(I)的定义,假定 I 是NFA M的状态集的子集,a,定义,Ia=_CLOSURE(J),其中,J是那些可从I中的某一状态结点出发经过一条a弧而到达的状态结点的全体。,Ia定义,= a1,a2,.ak 。先构造一张表,该表每一行含有k+1列。置该表的首行首列为_CLOSURE(X)。,重复上述过程,直至所有第

27、二列和第三列的子集均已在第一列上出现了为止。,如果某一行的第一列的状态子集已经确定,例如记为I,那么,求出这一行的第二个和第三个子集Ia和Ib看它们是否已 在表的第一列出现,将未出现的填入到后面空行的第一列。,1 表的初始化构造,2 处理表的一行,3 重复处理,子集算法,例2-17:考虑下图所示NFA的确定化:,y,x,1,5,a,a,a,a,b,b,4,3,2,6,b,b,I=_CLOSUREX为X,5,1。从状态I出发经过一条a弧而能到达的状态全体J为5,3,而_CLOSURE(J)=5, 3,1。从而Ia=5, 3,1。,初态_闭包X,5,1,Ja为5,3,_CLOSURE(J)为5,3

28、,1(根据_闭包的定义),根据此方法依次求出左边表中的状态转换矩阵即可。,对右下图表中的所有子集重新命名,得到左图中的状态转换矩阵形成如下状态转换矩阵,从而得到相应的DFA。如图所示:,3,0,1,2,a,a,a,a,b,b,b,5,4,6,a,b,b,a,b,重命名为状态0,重命名为状态1,根据重命名的状态填写表格,a,b,例2-18:考虑下图所示NFA的确定化:,1,2,3,4,5,7,10,letter,4,5,6,7,9,10,letter,4,5,7,8,9,10,digit,letter,digit,digit,letter,注意:所有这些状态都有在letter和digit上的转换

29、。,上图所示NFA的确定化后的DFA如下:,子集构造过程如下:,2.3.4正规文法与有限自动机的等价性,对于正规文法G和有限自动机M,如果L(G)=L(M),则称G和M是等价的。 关于正规文法和有限自动机的等价性,有以下结论:1、对于每一个正规文法G,都存 在一个有限自动机M,使得L(M) = L(G)。2、对于每一个有限自动机M,都存在一个正规文法G,使得L(G) = L(M)。,2.3.5正规式与有限自动机的等价性,关于正规式和有限自动机的等价性,有以下结论:1、对于任何有限自动机M,都存在一个正规式r,使得L(r) = L(M)。2、对于任何正规式r,都存在一个有限自动机M,使得L(M)

30、 = L(r)。,替换规则:用于证明结论:对于任何有限自动机M,都存在一个正规式r,使得L(r) = L(M)。,2.3.6确定有限自动机的化简,一个确定有限自动机M的化简是指: 寻找一个状态数比M少的DFA M,使得L(M)=L(M)。 一个DFA M的状态最少化过程旨在将M的状态集分割成一些不相交的子集,使得任何不同的两个子集中的状态都是可区别的,而同一子集中的任何两个状态都是等价的。最后,在每个子集中选出一个代表,同时消去其它等价状态。,3,0,1,2,a,a,a,a,b,b,b,5,4,6,a,b,b,a,b,a,b,例2-19:考虑下图所示DFA的化简:,首先:把M的状态分为2组:终

31、态组3,4,5,6,非终态组0,1,2,其次:考察3,4,5,6,由于3,4,5,6a和 3,4,5,6b 都包含于3,4,5,6,所以它不能在划分。,再考察0,1,2,由于0,1,2a 1,3,它既不包含于3,4,5,6,也不包含在0,1,2中,因此,它要划分,由于状态1经a弧到达状态3,而状态0、2经a弧到达状态1,因此,应该把1分出来,形成1、0,2。,再考察0,2,由于0,2b 2,5,它没有包括在上述三组中,因此,它要划分,形成0、2。,划分的组为:3,4,5,6, 0,1,2,划分的组为:3,4,5,6, 1, 0,2,划分的组为:3,4,5,6, 1, 0,2,至此,整个划分有4组: 3,4,5,6, 1, 0,2。每个组都不可再划分。最后令状态3代表3,4,5,6,把原来到达4、5、6状态得弧都导入3,并删除4、5、6,这样就得到了下图化简以后的DFA:,

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。