1、1生成词库理论的最新发展 *提要 本文主要介绍并评述生成词库理论的最新发展。其最新发展一方面体现在基于物性结构信息把名词分为自然类、人造类和合成类,并把这种分类扩展到了动词和形容词,构建了其语义类体系。另一方面,改进了语义生成机制,提出了纯粹类型选择、类型调节和类型强迫三种基于论元选择的生成机制。生成词库理论已经被一些语言学理论吸收,并在许多语言的研究中得到广泛应用,本文旨在推进此理论在汉语研究中的应用。关键词 生成词库理论 物性结构 人造类 语义生成机制 类型强迫生成词库理论(Generative Lexicon Theory,GLT)是美国布兰代斯大学(Brandeis Universit
2、y)教授 Pustejovesky于1991年提出的,1995年出版了专著The Generative Lexicon,其理论框架已经基本成形 1。生成词库理论首次把广义的生成方法引入到词义和其它领域的研究中,解决了词汇语义研究中的一些难题。历经二十多年的发展和改进,生成词库理论已经逐渐发展成熟,广泛应用于各种语言的研究,越来越有影响力。近十几年来,生成词库理论的基本思想虽然没有变,但整个理论构建发生了一些根本性的变化:基于对物性结构的分析,提出了名词的三大语义类型自然类(natural types)、人造类(artifactual types)和合成类(complex types),并把这种
3、分类扩展到了动词和形容词,构建了其语义分类体系,在此基础上,提出了更系统的基于论元选择的语义生成机制。本文旨在介绍并评述这些最新发展,推进这一理论在汉语研究中的应用。文章共分五小节,前四小节分别介绍生成词库理论的基本主张、词项的词汇语义表达、语义类型体系和语义生成机制,最后一小节是结语部分,简述这一理论的影响、存在的问题及其在各语言研究中的应用。1. 生成词库理论的基本主张生成词库理论是在研究了词的创造性用法的基础上建立的词义表示方法,是基于计算和认知的自然语言意义模型,关注词义的形式化和计算,试图解释词的不同用法以及在上下文中的创新性用法。生成词库理论持强组合性(strong composi
4、tionality)的观点,认为语言的意义是组合性的(compositional),是动态的、生成的。 传统的静态词义描写是列举法、分义项,其缺点是不仅阻止了词义的渗透性,而且也不能说明词语在上下文中的创新性用法,不能限制词义在上下文的变化。生成词库理论的核心思想是,一个词项的意义是相对稳定的,到了句子层面,在上下文中,通过一些生成机制可以获得延伸意义。其主要目标是研究各语言中的多义、意义模糊和意义变化等现象。生成词库主要包括两大部分,一是词项的词汇语义表达,二是句法层面的语义生成机制。词汇语义表达中最有特色的就是引入了物性结构,尤其是功用角色(telic role)的引入,直接影响了整个语义
5、类型体系的构建。生成词库理论尽量保持了词项语义的单一性,把意义的延伸放到句子层面去解决,并提出了相应的语义生成规则,不仅避免了不合理的多义处理,而且把词义与句子的意义联系在一起。22. 词项的词汇语义表达一个词项的词汇语义表达包括四个层面:论元结构、事件结构、物性结构和词汇类型结构。1)论元结构(ARGUMENT STRUCTURE):包括论元的具体数目、类型以及如何实现到句法层面。2)事件结构(EVENT STRUCTURE):事件类型包括 状态(state) 、过程(process )和转变( transition) ,like 、run 和 build 分别属于这三种事件类型;事件可能有
6、子事件(subevent ) ;说明哪个事件是核心事件(core event) ;说明事件的组合规则,比如事件发生的先后顺序。3)物性结构(QUALIA STRUCTRE):描写词项所指对象( object)由什么构成、指向什么、怎样产生的以及有什么用途或功能。包括构成特征(constitutive quale) 、形式特征(formal quale) 、功用特征(telic quale)和施成特征(agentive quale) 。这四个特征通常被称为构成角色(constitutive role) 、形式角色(formal role) 、功用角色(telic role)和施成角色(agent
7、ive role) 。物性结构最早源于亚里士多德的“四因说” (Aristotels four causes):质料因、形式因、目的因和动力因。 A.构成角色:描写对象与其组成部分之间的关系。包括材料(material) 、重量(weight) 、部分和组成成分。B.形式角色:描写对象在更大的认知域内区别于其它对象的属性。包括方位(orientation)、大小(magnitude)、形状(shape)和维度(dimensionality)等。C.功用角色:描写对象的用途(purpose)和功能(function)。D.施成角色:描写对象怎样形成或产生的,如创造、因果关系。功用角色有两种,一种
8、是直接功用角色(direct telic),人可以与某物发生直接联系,如beer的功用角色是drink;另一种是间接功用角色(purpose telic),指某个事物可以用来协助完成某个活动,如knife的功用角色是cut 。(1)a.drink-beerb.cut with a knife以“小说”为例,它的构成角色是“故事”等,形式角色是“书”,功用角色是“读”,施成角色是“写”。不是每个词都具有所有的角色。物性结构实际上是说明与一个词项相关的事物、事件和关系,表达的是一个词项中典型的谓词和关系,是范畴交叉的表征工具,物性结构为词提供功能标签,把词与概念网络联系起来,是概念逻辑的组织原则。
9、一个词项 的词汇语义表达式通常如(2)所示(Pustejovsky 2005):(2) beingtocamxhwAGENTIVfuntiLCsFORMdSQUI.e:1xAGT(3)是book(书)的词汇语义表达式:book有两个论元,一个指物质实体,一个指信息,book是二者合并的一个词汇概念范式(lexical conceptual paradigm,lcp,见第3节),它的3形式角色是hold,表达的是物质实体里装载着信息,功用角色是read ,施成角色是write (Pustejovsky 1995:116) 。(3) )y.x,ve(writAGENTIVad,LC holFORM
10、cpysbj_infQUIj:2ifx1Sbok(4)是kill(杀死)的词汇语义表达式:kill有两个论元,一个指个体的物质实体,一个指有生命的物质实体;kill包括两个子事件,一个表过程KILL(杀),一个表状态DEAD (死),第一个事件是整个事件的核心。kill是个表致使的词汇概念范式,其施成角色是KILL 这个动作,其形式角色是DEAD这个状态(Pustejovsky 1995:101)。这部分的分析与词义分解沿袭自生成语义学(Generative semantics )的分析。(4) )2,1kil_act(eAGENTdFORMLlp-CauseQUI physobjFAanim
11、te_2d1AGSTHEDRstaeprocEVNkil:2:1bookreferencePhys_obj informationcompiled_matter dictionary playT TAT AAF FF4图 1:词汇类型结构中的继承关系4)词汇类型结构(LEXICAL TYPING STRUCTURE):说明一个词项在一个类型系统中的位置,即一个词项的类。这决定了此词项与其他词项的关联方式,也就是继承关系。这个层面的词义与常识直接相关。这一层面在早期的理论框架中(Pustejovsky 1995)叫词汇继承结构(lexical inheritance structure) 。如图
12、1所示(Pustejovsky 1995:145) ,一个词可以从多个上层继承特征, dictionary(词典)从reference (参考书)继承功用角色consult(参考) ,从compiled_matter (编纂物)继承施成角色 compile(编纂) ,从book继承形式角色hold(容纳) ;play从book继承形式(F ) 、功能( T)和施成角色( A) ,book从information继承功能和施成角色,从Phys_obj(物质实体)继承形式角色。但近十几年来,Pustejovsky等学者对这一部分做了很大改动,主要基于物性结构中的功用角色,把词汇的类型分为自然类、人
13、造类和合成类,并据此建构了其整个语义类型体系。下文将单列一节来重点介绍和评述这一体系。3. 语义类型体系生成词库理论假设人类的认知能力反映在语言中,尤其反映在心理词典(mental lexicon)中,这个词典是复杂、动态(dynamic)而又连贯的知识系统,是结构化的语言学操作(structural linguistic operations)和生成意义的组合规则之间的接口( interface)。 词汇按其所代表的意义内容分为自然类、人造类和合成类(Pustejovsky 2001,2006)。1)自然类(natural types):与物性结构中的形式角色和/或构成角色相关的原子概念,从
14、上位类继承形式角色,是其他类的基础,谓词来自于物质域。例(5)中的 rabbit 就是自然类名词:(5)The rabbit died.2)人造类(artifactual types2):增加了功能概念,从上位类继承功用角色,是结合了物性结构中施成角色和功用角色信息的基础类型,谓词也与这两个角色相联系。自然类和人造类之间最大的区别是后者有“意图”(intentionality)。good 是评价性的,与“意图”相关,(6a)可以说而(6b)不可以说就是因为 chair 是人造类而 rock 是自然类。(6)a. This is a good chair. b. *This is a good
15、rock.3具体到一个特定的名词,都会跟自然类和人造类发生联系,人造类也需要物质继承,必然与自然类相联系。如beer是自然类liquid结合了施成角色brew、功用角色drink;knife是自然类phys结合了施成角色make、功用角色cut 。(7)a. beer: (liquid A brew) Tdrinkb. knife: (phys A make) Tcut另如beverage(饮料),它的基础类(ground type),也就是它的自然基础是liquid (液体),它本身是人造类,与功用角色drink相联系。这个类型可以记作liquid drink,是张量类型(tensor ty
16、pe),是张量类型构造器(the tensor type constructor),把一种物性关系引入到一个类型,使之成为这个类型的一部分。根据不同的具体功能,beverage又可以细分为下面的小类(Pustejovsky 2001):5图 2:beverage 的下位类这样,通过继承,人造类就有多个功用角色,有的离得近,有的离得远。如 coffee(咖啡)就有两个功用角色,一个是继承来的 drink(喝),一个是自身的 wake-up(提神),咖啡要喝了才能提神,继承的功用角色可以看成是根植在物性结构功用角色中的施成角色 4,如(8)所示(Pustejovsky 2001):(8)coffe
17、e:liquid t drink t wake-upx)y,drink(e:AGENTIVwa_upLC:IxFORM:QULIliq:1STcofePT指人的名词也有自然类和人造类之分,如图 35所示,doctor、surgeon 都是人造类名词:图3:自然类与人造类的类型继承3)合成类(complex types):在 GLT 中又常被称为“点对象” (dot object) ,因为其类型构造以一圆点为代表,由自然类和人造类组成,从两三个自然类和/或人造类继承角色。合成类在描写中以 lcp 标记:把一个词的不同词义合并到一个元词项(meta-entry )中,这个元词项叫词汇概念范例(le
18、xical conceptual paradigms, lcp),这样可以大大缩小词库的规模。如上文中例(3)所示,book 就是一个合成类 physinfo,是 phys_obj(物质实体)与 information(信息)合成的,它的形式角色(formal)反映了二者之间的关系是 hold。另如:EVENTINFO:lecture, play, seminar, exam, quiz, testEVENTPHYSOBJ:lunch, breakfast, dinner, teaEVENT(INFOSOUND): concert, sonata, symphony, song6lecture
19、是事件和信息合成类,既指一个事件,同时带有信息内容;lunch是事件和物质实体的合成类,既指一个有时间过程的事件,也指具体的食物。依此类推。三大语义类的区分是以名词为出发点的,动词、形容词根据其与名词语义类的对应关系也相应地分为三大类,如上文例(5)中的rabbit是自然类,die就是自然类。图4是三大范畴的上层分类,最上层概念被结构化成实体、性质和事件三个域,每一个域又被结构化成自然类、人造类和合成类,由简单到复杂(Pustejovsky 2001) 6。TEntity Event QualityNatural Artifactual Complex Natural ComplexArtif
20、actual Natural Artifactual ComplexPhysical Abstract Direct Purpose bookdie eat read red heavy good risingCount Mass Info coffee knife dangerous frightened图 4:三分的概念网格(Tripartite Concept Lattice)下面是三大主要范畴的分类举例:1)名词自然类N: rock,water,woman,tiger,tree人造类A: knife,beer,husband ,dancer合成类C: book,lunch ,unive
21、rsity,temperature2)动词自然类N: fall,walk ,rain,put,have人造类A: donate,spoil,quench合成类C: read,perform3)形容词自然类N: red,large,flat人造类A: useful,good,effective合成类C: rising,frightened生成词库关于词项的语义描述,最大的特色在于增加了物性结构,把名词词义与经验知识相结合,把名词与动词相联系,尤其是功用角色的引入,直接影响了其语义类型体系。其具体特点和贡献在于:1)通过物性结构,把日常经验知识与词汇语义连接在一起。关于语言知识与非语言知识的问题一
22、直是语义研究中的一个难题,传统的语义学认为语言知识与非语言知识有明显的界限,必须加以区分,后者不是语言研究的对象(利奇 1974) ;认知语言学(Langacker 1987;Lakoff 1987;Taylor 1989)则认为语言知识和非语言知识没有明显的界限;框架语义学(Fillmore 1982)也认为语言的理解要引入非语言知识的背景。不是所有的日常经验知识都有其语言学价值,生成词库理论通过物性结构中的构成角色、形式角色、功用角色和施成角色把与词汇语义相关的经验知识引入了词义的描写中,为经验知识与语言知识提供了接口。研究表明,这些物性角色能解释很多语言现象,具有较高的语言学系统价值。
23、2)区分了自然类与人造类。在与名词相关的动词中,生成词库理论更强调表功用角色的动词,并以此为依据把名词分为自然类与人造类,这种区分是根本性的,会造成语言表达层面的差异 7,例如:A.自然类不能做联合谓语(co-predication),人造类可以。7(9)*That is a dog and a cat.(10)a. That is a pen and a knife.b. She is a teacher and a mother.B.被形容词修饰时,自然类只允许一种解释,人造类则可以有另外的解释。(11)beautiful flower(12)long record/disk.(东西长或者
24、播放时间长)C.自然类从上下文获得强迫语义(coerced meaning),人造类 为上下文提供强迫语义。(13a)没有默认的上下文,需要从上下文获得解释,而(13b)默认的解释是write或者read。(13)a. I began the tree.b. I began the book.区分自然类的都是一些对立结构(opposition structure)如 male/femal、alive/dead ,谓词是自然类谓词,如 swimming、flying 、walking 等;区分人造类的则是功能行为(functional behavior) ,因此具有一定的任意性,不同的语言可能有
25、差异。 自然类与人造类的区分并不是 Pustejvosky 最早提出的,很多学者早已经注意到这一点: Labov(1973)的用品辨认实验表明,功能/用途会决定识别结果; Pulman(1983)讨论了自然类范畴(natural kind categories)和名义上的类范畴( nominal kind categories),与自然类/人造类的区分相当;Wierzbicka(1985 )指出,属性不是与物体本身有关,而是与物体在特定文化中的作用有关;Taylor(1989)指出事物的属性有时是功能的,决定物体的用途,有时是人与物之间的相互作用(interactional),反映人们怎样运用
26、某物;平克(1995)也认为,自然类与人造类是很重要的区分。在 Wordnet、HowNet 的语义分类中也有自然物与人工物的区分。生成词库理论的贡献在于把自然类和人造类的区分与动词联系起来,并加以形式化,把动词纳入到名词语义的表达式,进而把这种视角扩展到了指人的名词,甚至形容词和动词,从而重建了整个语义类型架构,并把这种区分渗入到了语言的各个层面。3引入多重继承(multiplied inheritance)。对于一个词,不是简单在结构树中放置,而是由下往上从不同的树枝继承不同的物性角色,避免了重复放置的问题。4. 语义生成机制生成词库理论认为,词汇的意义是相对稳定的,只是在组合中发生变化,
27、这种变化是由语义生成机制(Generative Mechanisms in Semantics) 来实现的。Pustejovsky (1995)把这一机制分成了三类:类型强制(type coercion) ,选择约束( selective binding)和共同组合(co-composition) 。近年来,这一机制有了很大改变,主要是把类型强迫纳入了语法上的论元选择机制,这样,根据论元选择的具体情况,就有三种论元选择生成机制(Generative Mechanisms of Argument Selection)可以解释词项在组合中的句法和语用表现(Pustejovsky 2005,2006
28、;Asher and Pustejovsky 2005,2006):1)纯粹类型选择(pure selection):函项(function)要求的类型能被论元直接满足。2)类型调节(type accommodation):函项要求的类型能从论元继承。3)类型强迫(type coercion):函项要求的类型被强加到论元上,通过两种方式来实现:()利用(exploitation):选择论元类型结构的一部分来满足 函项的要求。()引入(introduction ):用 函项要求的类型来包装论元。表1是各种机制出现的环境:只有当论元类型(argument type)与要求的类型(type 8sel
29、ected)匹配时,才可能是纯粹类型选择;同样的,类型调节也只用于相同的类型域(type domain );如果类型域不一样,类型强迫就会起作用;当论元类型比要求的类型复杂时,是类型利用,反之,则是类型引入(Pustejovsky 2006 )。Type SelectedArgument Type Natural artifactual Complex Natural Sel/Acc Intro Intro artifactual Exploit Sel/Acc Intro Complex Exploit Exploit Sel/Acc 表1:三种论元选择生成机制的出现环境接下来略举数例 8来
30、说明上述机制。1)纯粹类型选择。fall需要一个指物质实体的类型phys,rock能直接满足这个要求,(14)是一个纯粹类型选择的例子。(14)The rock fell.(纯粹类型选择)read 要求与之组合的名词是合成类 PhysInfo(物质实体信息),book 可以直接满足这个要求, (15)也是纯粹的类型选择:(15)John read the book.(纯粹类型选择)VPV PhysInfo NP:PhysInforead Det Nthe book2)类型调节。(16)中的wipe要求宾语论元有surface (表面),hands 虽然不能直接满足要求,却可以从它的上位类phy
31、s(物质实体)那儿继承一个surface,这就是类型调节。(16)Mary wiped her hands. (类型调节)VPV surface NP:Physwipe Det N:body_parther hands3)类型强迫。burn 要求与之组合的名词是自然类 Phys(物质实体) ,合成类book(Phys Info)不满足要求,但其类型结构中的一部分(Phys)能满足要求, (17a)是类型强迫中的类型利用;believe 要求与之组合的名词是 Info(信息) ,也可以从book(Phys Info)中选择一部分(Info)来满足, (17b)也是类型强迫中的类型利用: (17)
32、a. The police burned the book. (类型强迫:利用)b. Mary believed the book.(类型强迫:利用)9VPV Phys NP:PhysInfoburn Det Nthe bookVPV Info NP:PhysInfobelieve Det Nthe bookread 要求宾语论元是合成类 PhysInfo,而 rumor 的类型是 info,不能满足其要求,类型强迫机制就会给 rumor 引入一个新的类型 PhysInfo,这是类型强迫中的类型引入。 (18)中的 rumor 一定有某种物质实体做载体,比如报纸。(18)Mary read a
33、 rumor about John.(类型强迫:引入) VPV PhysInfo NP: PhysInforead Det Na rumor:Info begin 是个事件动词(eventive verb) ,要求其补足语(complement)是一个事件论元,句法上通常表现为一个动词短语 VP(read the book/write the book),(19a)和(19b)能满足这种语义选择(s-selection),是纯粹类型选择 ;而(19c )在句法层面却实现为一个指事物的名词短语 NP(the book),这样就会出现类型不匹配( type-mismatch),因此 begin就会
34、强迫(coerce)这个 NP 进行类型转换(type shift),变成事件类型,这种强迫是通过名词 book 物性结构中的施成角色 write 或功用角色 read 实现的。这也是类型强迫中的类型引入,为一个实体类型 book 引入了一个事件类型。(19)a. John began writing/reading the book(纯粹类型选择)b. John began to write/read the book. (纯粹类型选择)10c. John began the book. (类型强迫:引入)VPV event NP:write/read the bookbegin Det N
35、the book agentive:writetelic:read 生成词库理论在语义生成机制方面的改进主要表现在,从类型选择的角度区分了纯粹类型选择和类型强迫,分别来处理类型匹配和不匹配的情况,尤其强调类型强迫这一机制的作用,从而可以解决很多多义和语义模糊现象。类型强迫是一种语义操作方法,可以把论元转换成符合函项要求的类型,否则就会出现类型匹配错误(Pustejovsky 1995:111)。类型强迫有两种 9:1)保持域不变(domain-preserving )。如可数的chicken(鸡)变成不可数的chiken(鸡肉),但还在实体( entity)这一域内。如:(20)Theres
36、chicken in the soup.2)域发生变化(domain-shifting ),其中又分几个小类:A.实体变成事件(entity shifts to event):(21)I enjoyed the beer. 我喜欢这啤酒(我喜欢喝这啤酒/享受喝这啤酒这件事) 10。B.事件变成时间间隔(event shifts to interval):(22)before the party started. 在派对开始前(在派对开始的时间前) 。C. 实体变成命题(entity shifts to proposition):(23)I doubt John.我怀疑约翰(我怀疑约翰所说/想的
37、内容) 。5. 结语近几年,生成词库理论发展迅速,研究已具规模,到2009年为止,关于这一理论的国际性专题会议International Conference on Generative Approaches to the Lexicon已经召开了5届。在生成词库理论的基础上,Pustejovsky带领其课题组,正在构建基于语料库的一个语义体系Brandeis Semantic Ontology(BSO ),目前建设的语义类型网格(Type lattice)包括3500个语义类型节点,涵盖了40000个多义词,其中名词29000,动词5000,形容词6000。此外,Pustejovsky et
38、 al.(2008 ,2009)在生成词库理论的基础上创制了一套语义标注语言GLML(A Generative Lexicon Markup Language),并已经尝试对语料进行语义标注,与标注施事、受事等语义格不同,GLML要标注名词的语义类型(人造类、事件等),名词与谓词之间的组合关系(类型选择或强迫),以及涉及的物性角色(形式、构成、施成和目的)等。生成词库理论,尤其是其中的物性结构(qualia structure)和强迫机制,已经被许多语言理论框架吸收:Jackendoff(1997,2002)的概念语义学利用了物性结构、类型强迫等;Van Valin(2005)在角色指称语法(RRG,Role and Reference Grammar)中利用物性角色