1、1俄语名词的计量特征研究摘 要 传统语法主要采用定性方法对语言作出描述,而计量语言学采用统计方法,利用(经过句法标注的)语料库对语言进行定量分析,是对语言进行精确研究的有效途径。以俄罗斯科学院编制的 STR 树库为数据来源,通过从树库中提取由名词充当支配词构成的名词性结构的相关数据,对名词性结构的基本类型、词序特征及其句法功能进行统计分析,得到了三个研究结果:一是验证了传统语法中已有的定论;二是使这些定论得到了更为精确的阐释;三是发现了传统研究方法难以发现的一些俄语名词的结构规律。由此可见,采用计量方法对词类的句法进行研究,不仅可以从定量的角度对传统语法中的有关论述加以补充与完善,而且具有语言
2、类型学的意义。 关键词 俄语; 名词; 计量特征 在语言学研究中,统计方法的运用并不鲜见,研究者借助定量分析得出定性的结论,已成为自然语言信息处理的基本方法。在俄语研究中,语言学家早在 20 世纪初就已开始采用统计方法,但主要集中在文体、音素、语素、词汇等方面,其中尤以文体研究为最。波利万诺夫(.)的俄语亚历山大诗体 (1892)被认为是运用统计方法对文学作品进行语言分析的开山之作1878。至 19 世纪2030 年代,别雷(.) 、布里克(.) 、维诺库尔(.)等学者在诗体的计量研究上取得了一定的成就21878。雅尔霍(.)在该领域作出的贡献尤为突出,他撰写的精密文学研究方法论 (1935)
3、及其他学术论著使其成为“文学批评传统方法的改革者”1xviii,因为他“首次在运用定量方法建构文学流派的类型学上做了尝试”1xix。近年来,俄罗斯学者延续了这一传统,采用定量方法研究诗律、音位、词汇等语言单位和语体特征,取得了一些新的成果2 4。 与此同时,在西方语言学界,随着齐夫(G.Zipf)所著语言的心理生物学一书5的出版,计量方法开始被广泛运用于语言研究,并逐渐形成独立的语言学分支学科计量语言学6。在我国,已有一些研究将计量语言学方法运用于汉语研究,在词类的句法功能以及汉语句法结构的统计特性等方面取得了一定的成果7 10。研究表明,利用经过句法标注的语料库(也称为树库)对语言进行定量分
4、析是一种卓有成效的方法。刘海涛认为:“基于依存句法的树库,除能进行一般的词类定量分析外,也可以进行依存关系、依存距离和加权配价模式的统计分析这样的定量分析不仅可用于汉语句法研究,而且也可用在语言教学方面。 ”7250 251 2009 年,俄罗斯科学院信息传输问题研究所的计算语言学实验室完成了俄语的句法标注树库(the SynTagRus Treebank of Russian,以下简称 STR 树库) ,为我们运用定量方法研究俄语句法提供了可靠的资源。该树库采用依存句法对句子进行句法标注,形成句子的依存树,树中节3点为句子中的词,边为词间的依存关系 STR 树库原文为“句法关系” ,但其实质
5、与依存语法中的依存关系相同。为同英语和汉语的计量研究中采用的术语一致,本文统一用“依存关系”表示。 ,树中也包含词的形态及句法功能等信息。根据这些信息,我们可以借助定量方法对俄语各词类的构成及其功能进行分析,验证传统语法定性研究得出的结论,并对词类的使用频率、各词类可以构成的结构类型、词序特征以及句法功能作出较为精确的阐释。与此同时,采用计量方法也可以更客观地从语言类型学的角度比较各种语言,进而能够对人类语言的个性和共性作出更精确的描述与解释。 本文将以俄语名词为例,从 STR 树库中采集相关数据进行统计分析,对以下几个问题展开研究:名词结构的主要构成类型;名词结构中支配词和从属词的词序特征;
6、名词结构的长度(依存距离) ;名词结构的依存关系及其句法功能。希望以此发现传统研究方法难以发现的一些俄语名词的结构规律,或者对传统语法中的有关论述从定量的角度加以补充与完善。 一、 STR 树库 (一) 理论依据及依存树构成 STR 树库的句法结构标注以梅尔丘克(.)等提出的意义文本语言学模型(MTT)为理论依据11196。MTT 理论是一种分层次、基于依存关系的语言学理论 有关依存关系和依存语法理论的论述详见刘海涛依存语法的理论与实践 , (北京)科学出版社 2009 年版;., 4, : , 2001。 。该理论将句法层分为“深层句法”和“表层句法” ,采用“有向的、二元的关系”构成“表层
7、依存关系” , “选用依存树作为描写自然语言中句子的表层句法结构的形式手段”12214。因此,在表层依存关系中, “一个成分是主导词另一个是从属词箭头从主导词指向从属词” “词组由主导词和从属词形构成,前者在语法上居支配地位后者在语法上处于从属地位。 ”见信德麟、张会森、华劭编俄语语法 , (北京)外语教学与研究出版社 1990 年版。梅尔丘克所用的“主导词”沿用了传统语法的术语,而在依存语法中通常称为“支配词” ,本文除了引文,统一采用“支配词”这一术语。12211。 据此编制的 STR 树库,一个句子构成一棵依存树。其中树的顶端为树根,该词为全句的支配词;从属词可以同时构成下一层从属词的支
8、配词;词与词之间的依存关系标注在连线上;连线的箭头表示其依存方向。如句子: .(小轿车轰鸣的频率完全不同。)其句法结构在 STR 树库中的形式如图 1 所示: 图 1 中,左侧是句中按线性次序排列的所有词,右侧为据此编制的一棵依存树。除了词的句法功能信息,还包含了词与词之间的依存关系信息。这棵依存树由三层构成。第一层由支配词(树根)(轰鸣)支配两个从属词:名词 (轿车)和前置词 (以) ,前者同支配词构成述谓关系,而后者则同支配词构成疏状关系;第二层由第一层的两个从属词充当支配词,其中5 支配形容词 (小的) ,从属词与支配词构成定语关系,而 则支配副词 (完全)及名词(频率) ,前者为限定关
9、系,后者为前置词短语关系;第三层由第二层的从属词 支配形容词 (另一种) ,两者构成定语关系。由此看出,基于依存关系编制的句法树清晰地揭示出了词与词之间的依存关系、结构层级(依存方向)及句法功能。 (二) 名词在 STR 树库中的数量及功能构成分布 无论是汉语、英语、俄语、法语、德语、西班牙语还是其他语言,在绝大多数人类语言的语法书中,名词都是最先描述的词类。这并非偶然,因为“名词表示的事物是广义的,包括物体的名称,人的名称,物质的名称,动物和生物的名称,事实、现象、事件的名称,以及当作独立事物看的非过程性与过程性特征(性质、动作、状态)的名称”13248。换言之,世界是由事物构成的,而名词则
10、是万物表述的载体。 哈德森(R.Hudson)指出, “书面英语中有 47%是名词”。刘海涛根据自建树库对词类频率进行统计,得出汉语名词(包括代词)占书面用语的 4147%7251。在俄语句法树库中,名词的使用频率同样高居榜首。 转引自刘海涛依存语法的理论与实践 , (北京)科学出版社2009 年版,第 252 页。 传统语法中,俄语有 10 大词类,树库根据编制需要,调整为 12类,代词被拆开并入名词或形容词,另增的 3 类数量很少,且与词类的句法功能鲜有关联,所以不列入研究范围。参见信德麟、张会森、华劭6编俄语语法 , (北京)外语教学与研究出版社 1990 年版。本文所涉及的 9 大词类
11、采用通用的缩写词,对应如下:S=名词,V=动词,PR=前置词,CONJ=连接词,A=形容词,ADV=副词,NUM=数词,PART=语气词,INTJ=感叹词。如图 2 所示,在各词类中,无论是充当支配词还是从属词,名词的出现频率都遥遥领先。数据显示,在树库的 58 270 个支配词中,名词有 24 427 个,占 4192%;其次是动词,有 18 318 个,占 3144%。两者相加,占到了支配词总数的 7336%。而在 50 662 个从属词中,名词有 20 276 个,占 4002%;其次是动词和形容词,各有 7 558 个和 7 492 个,占1492%和 1479%。这表明名词具有重要的
12、句法地位,因为名词充当从属词的数量意味着它在整个文本中所占的数量,而充当支配词的数量即为其占主要地位依存关系的数量。表 1 为树库中的依存关系列表,可以从另一个角度证明这一点。 树库共有 60 种依存关系,总计 50 662 个。位列前 4 位的分别是定语关系、第一补足语关系、前置词短语关系和述谓关系,分别占1369%、1292%、1150%和 991%。在这些依存关系中占主导地位的结构分别是:A(w)+S(g) , V(g)+S(w) , S(g)+S(w) ,PR(g)+S(w) 。在定语关系中,A(w)+S(g)结构有 6 003 个,占定语关系的 8655%,其中名词是支配词。第一补足
13、语关系的主要结构是 V(g)+S(w)和S(g)+S(w) ,前者有 2 539 个,占 3879%,支配词是动词,从属词为名词;后者有 1 534 个,占 2344%,支配词和从属词均为名词。构成前置词短语关系的支配词 100%为前置词,且绝大多数为 PR(g)+S(w)结构,在该依存关系的 5 828 个构成中,从属词为名词的有 5 659 个,占79710%。构成述谓关系的主要是 V(g)+S(w)结构,共计 3 769 个,占7509%,支配词为动词,从属词为名词。由此可见,在这些出现频率较高的依存关系中,名词都是不可或缺的组成部分,或者充当支配词,或者充当从属词,从而成为依存关系构成
14、的重要词类。这也充分证明了名词在发挥句法功能中的核心作用。 基于以上分析,本文选取名词为研究对象,以 STR 树库为研究数据的来源。我们从 STR 树库中随机选取了 3 509 个句子,形成了一个便于操作的含有 54 170 个词次(不计标点符号)的俄语依存树库,该树库平均句长 1768 个词。我们从树库中提取了名词充当支配词时的相关数据并对之进行统计分析。由于名词支配从属词构成的是名词结构,因此,通过分析可以得到名词结构的词序特征及其句法功能。 二、 名词结构的词序分析 “通常有一种说法,认为俄语中的词序是自由的,句子成分在句中是没有固定位置的。 ”14117 对这种看法,语法编写者指出,俄
15、语中的词序在很大程度上取决于其在不同语体中发挥的功能1357514117。那么,俄语的词序究竟有哪些特征?它到底有多大的自由度?为了找到这些问题的答案,我们首先计算出树库中词与词之间的依存距离,之后,对这些数据进行统计和分析。 “依存距离指的是支配词和从属词之间的线性距离,即一个句子中存在依存关系的两个词之间的词位置之差。 ”7252 据此,如果从属词位于支配词前,则该值为正向,反之则为负向。我们也可以将依存关系的这种前后特征称为它的依存方向。利用一种语言中所含这两种方向不同8的依存关系的比例,可以研究语言的语序类型特征151569。在 STR 树库中,依存距离大于等于 1(即支配词位于从属词
16、之后)的有 18 034 个,小于等于-1(即支配词位于从属词之前)的有 32 629 个。这说明俄语是一种从属词后置的语言,有 64.41%的从属词位于支配词之后。这与汉语的句法结构恰好相反。统计数据表明, “汉语是一种偏向于支配词居后的混合型语言只有三分之一的从属词位于其支配词之后”7255。俄语名词的句法结构同样反映出这种后置的特征,这点可以从图 3 中看出。在图 3 中,0 以上为居于名词之前的从属词分布,0 以下为居于名词之后的从属词。无论是正向还是负向,主要集中在 0 上下,即紧靠支配词的位置,虽然支配词和从属词的依存距离最大可达 36 和-39,但为数不多;此外,负向的面积明显要
17、大得多,即后置的从属词远多于前置的从属词。为了作出更精确的分析,我们将图 3 的相关数据列在表 2 中。 表 2 显示,当支配词为名词时,同样是从属词后置居多,有 8 901个,占 5288%;从属词前置的有 7 930 个,占 4712%。这种分布特征与树库中所有词类的整体分布情况吻合。另外,绝大多数从属词与支配词相邻,即从属词直接位于支配词之前或之后(依存距离等于 1 或-1) 。依存距离为 1 的有 6 172 个,占所有正向依存距离从属词的 7783%;依存距离为-1 的有 4 769 个,占所有负向依存距离从属词的 5358%。总体而言,俄语名词同其从属词之间的依存距离并不大,平均依
18、存距离为 157,其中正向的平均依存距离为 147,负向为 208。 那么,从属词前置或后置是否有一定的规律?是否与名词结构的句法功能有关?我们对受名词9支配的从属词词类进行了统计,结果见图 4 和表 3。 名词充当支配词的总数为 16 831 个。图 4 显示,受其支配的从属词囊括所有 9 大词类。数量最多的是形容词,有 6 136 个,占 3646%;其次是名词,有 5 719 个,占 3398%;之后是前置词和动词,分别为 1 521 个和 1 229 个,占 904%和 730%。这说明名词结构的内部构成类型主要有:形容词(包括代形容词)+名词;名词+不带前置词的名词间接格;名词+带前
19、置词的名词间接格;名词+动词(动词不定式或形动词) 。 表 3 列出了名词结构主要类型的构成及其依存距离。数据表明,当支配词是名词时,主要句法结构为 S(g)+A(w) 和 S(g)+S(w) ,这两种结构占所有名词句法结构的 7044%;其次是 S(g)+PR(w)和S(g)+V(w) ,这与名词的指物特性相关,因而受其支配的从属词通常表示该事物的所属或限制特征。当从属词为形容词时,构成支配词名词的一致定语,表示其特性;当从属词为名词、前置词或动词时,构成名词的非一致定语,表示事物的所属、性质或行为的直接补语(当支配词是动名词时) 。 在 S(g)+A(w)结构中,正向依存距离占压倒性多数,
20、有 5 922 个,占 9651%,依存距离的均值为 129。在前置的从属词中,大部分与支配词相邻,即直接位于支配词之前,其依存距离等于 1,有 4 919 个,占所有正向从属词的 8306%。如:(最新的)w (研究)g, (著名的)w (科学家)g,(自己的)w (财产)g。与此相比,从属词后置的只有 215 个,10其中依存距离为-1 的有 91 个,如:(时代)g (这个)w, (想法)g (这种)w, (问题)g (根本的)w。负向的依存距离均值为-285,S(g)+A(w)结构的平均依存距离为134。由此可以看出,俄语同汉语一样,形容词说明名词时通常应前置,构成一致定语;但与汉语不
21、同的是,俄语的形容词还可以后置,这种词序通常是一种修辞手段,发挥特殊的句法功能,突出强调人或事物的特征,或具有口语色彩等。 与 S(g)+A(w)相比,S(g)+S(w)结构的从属词则以后置居多。依存关系为负向的有 5 217 个,占 9122%,并且同样以相邻词序为多,依存距离为-1 的有 2 845 个,占后置名词总数的 5453%。如:(出口)g (产品)w,(问题)g (流失)w,(挽救)g (庄园)w。但间隔词序也不少,不过以中间间隔 1 个词的为主,依存距离为-2 的有 1 536 个,占 29.44%。如:(获得者)g .(奖项)w,(重建)g .(纪念碑)w,(减少)g .(数量)w。后置从属词与支配词的依存距离均值为 186。前置从属词只有 503 个,其中依存距离为 1 的有 229 个,占前置从属词总数的 45.53%,其均值为 2.49。可见,在名词修饰名词组成名词结构时,正常的词序是从属词后置。此外,其平均依存距离为 192,比