1、1基于语料库的经济学人中文本的词块分析【摘要】随着认知学研究的发展,单词不再是语言信息处理的唯一单位,在语言理解和语言产出中存在着词块这样一种理想的单位。从 20世纪 80 年代至今,随着语料库语言学的发展,人们能够更加客观的认识语言。人们发现,在人的大脑中储藏着很多固定化或半固定化的语言结构,这些结构兼有句法和词汇的双重特征。这些词块不仅在语言的习得中扮演着重要的角色,而且帮助人们更简单,流利地产出语言。因此对自然语言中词块的使用进行研究是具有价值的。 经济学人中的文章常常被用于大学生英语考试的阅读的初始材料。研究经济学人中文本的词块特征对英语考试阅读能力的提高有着重要的作用。在以往的研究中
2、,有不少对大学生英语考试中的作文词块的研究,对英语考试中阅读材料的初始材料的词块的研究是比较少的。因此,这篇论文试图建立一个关于经济学人文章中语块的微型语料库。借助于 Antconc 软件提取一些 36 词的词块。按照一定的标准进行人工筛选确定词块。根据Altenberg 的分类标准,将语块的结构分为完整分句,分句成分和不完全词组 3 个类别。研究结果表明词块的长度和词块出现的频率成反比。3 种词块类型中分句成分所占比例最大,而完整分句所占比例最小。 【关键词】词块;语料库;阅读理解 引言 20 世纪 80 年代以来,大型计算机语料库的丰富发展给语言学家们提2供了一个研究自然语言的新发展。人类
3、语言中存在着大量的固定化和半固定化的表达结构。它们储藏在人类大脑中供提取和运用。大约 70%的口语都是由词块产生的。词块的存在加快了语言处理的速度,对语言习得和语言输出的流利性和地道性都具有重大的意义。因此,近年来,在语言使用中对于词块的研究更为广泛。许多前人的研究都主要是理论化的研究,对多词语集合的不同视角研究进行对比,提出一些新的分析方法模式。Weinert 确定了两种基本的研究问题:确定固定的词语集合,分析其语篇功能。对这两类研究问题出现了大量的实证研究。然而对如何定义这些多词语集合,用什么样的方法来研究它们,却很少达到一致。 经济学人中的文章常被用于编写大学英语考试的阅读理解部分。因此
4、了解这其中的一些常用的词块能够提高学生的阅读理解能力。对于阅读理解原始材料的语料库相关的研究比较少见。论文试图建立一个语料库,通过 Antconc 软件提取一些不同长度的词块,分析他们的结构和语用特征。借此希望通过提高学生对词块的了解来提高学生阅读理解的能力。 1 文献综述 1.1 国外的研究 Becker(1975)是第一个较详尽地研究词块的人,他认为那些固定的或半固定的语言表达结构的人类语言交际的最小单位。他还认为日常的语言使用应该被作为语言研究的一个主题。在以后的研究中,词块被冠以不同的名称,例如:chunk,Lexical phrase,lexical bundles 等等。Lexic
5、al phrase 这个词被 Nattinger 和 DeCarrio(1992)运用到很3多研究中,他们认为语言产出的过程就是“对这些预制语块进行选择,然后将这些语块串联起来的过程。 ”Michael Lewis(1997)把词块分为四种类型:1)复合词和集合词 2)搭配 3)惯用语 4)句子框架和引语。他认为语块是可以被观察的现象而且常常出现在自然的语篇中。 Altengberg(1993)认为词块是以同一种形式出现超过一次的连续的词语。他根据词块的结构特点,把词块分为三大类:完整分句、分句成分和不完全词组。完整分句具有相对完整的句子结构和语法意义,包括独立分句和从属分句两类。独立分句作为
6、一个完整的句子可以单独使用表达完整的语义,如 Haste makes waste 从属分句不能单独成句,只能插于句中,与其他分句共同组成一个完整的句子,如 as far as Im concerned.分句成分在所有词块中所占的比例最大,又分为多种分句成分与单一分句成分两种。一个多种分句成分词块中包含两个或多个句子成分,如 I think 中含有句子的主语和谓语;相反,单一分句成分仅充当句子的一个成分,如 in the past 作为时间状语。 Biber(1999)把词块定义为“在自然语篇中有一种同现趋势的三次或多词序列。 ”根据他的理论,词块的语法功能和它们的许多基本结构类型有很强的联系。
7、Biber(2007)论述了大学英语不同口语及书面语语体中的词块用法。 1.2 国内的研究 随着基于语料库的研究方法传入中国,濮建忠(2003)基于中国学习者英语语料库(CLEL)和布朗语料库,对中国学习者使用语块进行了一个对比研究。研究结果显示中国学习者在语言输出中使用语块的意识4相较本族语使用者要弱。王立非(2006)基于中国学习者笔语语料库(WECCL)对英语学生在议论文中使用词块进行了研究,发现中国学生使用的语块类型很少,而且还过度的使用三次语块。卫乃兴(2007)根据Altenberg 对词块的分类,对中国学生口语语料库(COLSEC)中的词块进行了研究。研究结果表明中国的学习者倾向
8、于使用不同的词块来表达既定的意义和功能,中国学习者的中介语在既定的情境下形成了自身实现语用意义的方法。 2 研究过程 2.1 数据收集 经济学人 经济学人是一份由伦敦经济学人报纸有限公司出版的杂志,杂志的大多数文章写得机智,幽默,有力度,严肃又不失诙谐。其内容主要涉及政治,经济,商业,文化,科技等方面。在大学英语四六级考试以及英语专业专四,专八考试中的阅读材料常常来自于一些外国期刊,涉及社会,经济,科技等方面。 词块是形成语篇的重要组成部分,对词块的了解有助于提高学生的阅读理解能力。通过研究经济学人中的词块,对于学生英语考试阅读理解能力的提高有重要的意义。 首先,建立一个语料库,用来分析的文本
9、主要来自经济学人中的文章。为了避免主题的集中,每两周选取一期期刊,时间从 2013 年 6月 1 日至 2014 年 1 月 3 日半年的时间。总共有 48 篇文本,每个文本1000 多个单词。然后将这些文本储存在语料库中,作为一个原始语料库来对经济学人中的文本进行词块分析。 2.2 研究问题 5本研究主要为了解决以下问题:1.经济学人中最常用的词块有哪些?2.这些词块的结构类型是什么? 2.3 研究工具 Antconc3.2.4 被用于数据的收集和分析。 3 研究结果 3.1 统计数据 通过以上的统计,研究得到了不同长度的词块的相关数据 从表 1 可以看出,3 词词块所占的比例最大,6 词词
10、块所占的比例最小。词块的数量与词块的长度成反比。词块出现的频率也与词块的长度成反比。 研究得出最常使用的词块有:One of the(61 次) ,The United States(60 次) ,The business is(58 次) ,The company is(58 次) ,The world is(56 次) ,On Wall Street(55 次) ,The nation is(53次) , In our country(49 次) ,In recent years(48 次) ,A lot of(46 次) ,As well as(45 次) ,The country is
11、(43 次) ,It is a(41 次) ,The value of(40 次)等等 3.2 词块的结构类型 Altengberg(1993)认为词块是以同一种形式出现超过一次的连续的词语。他根据词块的结根据 Bengt Altenberg 对词块进行的分类。我们把此语料库中所有的词块分为三个类别:(1)完整分句;(2)分句成分;(3)不完全词组。表 3 显示了此语料库中不同类型词块的数量,频率和相应的百分比。 61.完整分句中,独立分句的数量为 18,百分比为 1.37%.频率为 43,百分比为 0.64%.从属分句的数量为 7,百分比为 0.53%.频率为 12,百分比为 0.18%。
12、2.分句成分中,多种分句成分的数量为 506,百分比为 3874%.频率为 2604,百分比为 38.59%.单一分句成分的数量为 479,百分比为 36.68%.频率为 1465,百分比为 21.71%。 3.不完整词组的数量为 296,百分比为 22.67%.频率为 1465,百分比为 21.71%。 在这三种结构类型中,分句成分无论是在数量还是频率上都占据最大的比例。总频率占了 77.47%。不完整词组占据 2171%,占据第二大比例。所占比例最小的是完整分句。这个结果和 Altenberg 基于 Native Oral Corpus 研究所得出的结果(完整分句:10%,分句成分 76%
13、,不完整词组:14%)是大致接近的。和卫乃兴(2007)基于 COLEC 所做的词块研究的结果(完整分句:460%,分句成分 87.18%,不完整词组:8.22%)也是相近的。上述结果显示分句成分无论是在本族语语的口笔语语料库,还是在第二语言学习者口笔语语料库中,都占据着重要的位置。 4 结论 基于语法的方法,许多学习者抱怨即使他们学习了一系列的句法规则和大量的词汇(主要是单个词汇) ,他们也很难自由地表达他们的观点。传统的交际方法能够使许多学习者说得流利,然而由于他们应用句法规则的能力较差,写作能力并不好。最近,语言学习不再被认为是一种词汇和语法的习得过程。一种词汇学习方法被用于达到词汇学习
14、和语法学7习之间的平衡。研究逐渐从词汇和语法转向词块既有词汇功能又有语法功能的一种成分。词汇在第二语言习得中扮演着重要的角色。掌握词块的特点不仅对语言理解有重要的作用,对语言的输出也产生重要的影响。本论文的研究主要是研究词块在经济学人里面的特点。首先提出一些问题,任何通过对语料库中词块的使用的分析,通过分析研究结构,给出问题的答案。 (1)就词块使用的频率而言,在此语料库中,三词词块的频率最高,六词词块的频率最低。也就是说,词块的长度越长,词块的数量越少。相应地,在此语料库中,随着词块长度的减少,词块出现的频率增多。 (2)就词块的结构类型而言,我们遵循 Altenberg 对词块进行的分类把
15、此语料库中的词块分为三种类型:完整分句,分句成分和不完整词组。结果显示分句成分的使用频率最高。这也反应了分句成分在经济学人中的重要性。完整分句的使用频率最小。所得的结果与Altenberg(1998)和卫乃兴(2007)的研究结果一致。 本论文的研究还有一些局限性。首先,本研究所建的语料库所用的文本相对小,不能代表经济学人中所有的文章。其次,心理语言学家认为,只有语言使用者才能判断一个词语序列是否是词块。而本研究中的词块是由作者的视角来判断。 鉴于以上的一些局限性,未来的研究应该做到:首先,需要大量的文本来建立语料库,以保证研究的科学性。其次,应该探寻一个更加有效准确的方式来定义词块。 参考文
16、献: 81Altenberg.The LondonLund Corpus and Applications in Proceedings of the7th Annual Conference R.UW Center for the New OED. OUP,1991 2Becker, J. The Phrasal Lexicon M.Cambridge Mass: Bolt and Newman, 1975 3Lewis M. A Lexical Approach M.Cambridge University Press,1994 4Nattinger J. R.,DeCarrico J.
17、S. Lexical Phrases and Language Teaching M.上海:上海外语教育出版,2000 5Nattinger, J. Some current trends in vocabulary teaching. In R. Carter&MaCarthy (eds.) , Vocabulary and Language Teaching. New York: Longman,1988 6Peters A. The Units of Language Acquisition M.Cambridge University Press,1983 7贾琳琳.词块理论及其对第二
18、语言能力发展的启示J.江汉大学学报:社会科学版,2004,3 8濮建忠.英语词汇教学中的类连接,搭配及词块J.解放军外国语学院学报,2003,6 9濮建忠.英语词汇教学中的类联接、搭配及词块J.外语教学与研究,2003 10王立非,张大凤.国外二语预制语块习得研究的方法进展与启示J.外语与外语教学.2006, (5) 911卫乃兴.基于语料库和语料库驱动的词语搭配研究J.当代语言学.2002, (2) 12卫乃兴.词语搭配的界定与研究体系M.上海交通大学出版社.2002 13卫乃兴.中国学生英语口语的短语学特征研究J.现代外语.2007(3)280-291 作者简介: 李甜(1991) ,女,湖北天门人,研究生在读,现就读于中国地质大学(武汉) ,研究方向:外国语言文学。