1、1,语料库在外语教学研究中的应用及方法潘璠计算机辅助语言教学研究所华 中 科 技 大 学 外 国 语 学 院2008年4月,2,Outline:1.语料库和建库原则2.语料库检索方式3.运用语料库进行外语研究:方法和实例4.语料库资源介绍,3,1.语料库和建库原则,语料(corpus),又称为素材,是自然发生的语言材料(包括书面语和口语)的集合。可以用来作为描述一种语言的出发点或用于证实有关一种语言的假设的手段(Crystal,1991)。语料语言学(corpus linguistics)是以语篇(text)语料为基础对语言进行研究的一门学科,是计算语言学的一个分支。,4,语料库,对语料的处理
2、由较为简单的机器可读形式发展到人工或自动词性附码(tagging)和句法分析(parsing)的注释(annotated)形式。利用语料对语言进行研究的成果已被用于辞典编纂和语言教学等实际工作中,例如1980年由Sinclair主持的Cobuild计划。这是Collins出版公司与Birmingham大学的合作计划。他们搜集了大量的现代英语口语和书面语素材,逐一分析每个单词的词汇、语法、语义、语体和语用特点。根据这些资料,陆续出版了一系列COBUILD词典和语法等工具书。这些书中的例句取自真实的语言素材,词典中词的释义排列顺序由语料库中得出的统计结果来决定,更加客观地反映了英语的使用情况。此外
3、,词的释义方法更利于英语学习和教学。因此,受到语言学界和语言教师及学生的欢迎。,5,语料库建库原则,语料库的主要用途之一是发现语言的主要的和典型的用法。一般用途语料库的语料随机地取自各种来源,在语域方面尽量避免偏向,例如Brown语料库在语域上分为15个类别(新闻报导、社论、新闻评论、宗教、技能和爱好、学术和科技、各类小说和幽默等等)。语料采集方式最根本的目的在于尽可能保证所采集的语料具有代表性,保证所收录的语料最大程度地涵盖具体语言在诸如语体、语域、地域变体、作品年代、作者性别、题材类型等多方面的比例合理性,进而保证建成后的语料库能囊括具体言语行为的普遍规律性。,6,语料库建库原则,表1.“
4、英语用法调查”语料库(I)原始书写语料(100篇)(A)印刷品(46)(B)非印刷品(36)人文科学6 想象性5连续书写品自然科学7 资讯性6教学6 一般新闻 4 亲密 6报刊社交书信平等4 专门报导 4 疏远 4文书4平等 4非社交书信1法律3疏远 4论说文5 日记4散文小说7(C)口语(18) 资讯性 4剧本4 谈话想象性2正式演说(经转写) 3 故事2广播新闻3,7,语料库建库原则,()原始口说材料(100)篇有准备的演说(未转写)6 亲密 24演说 10 不公开自发言语体育4 疏远 10评论亲密 20其他4 交谈可公开疏远6亲密 10电话疏远6,8,2.语料库检索方式,较为典型的检索工
5、具是1996年牛津大学出版社推出的Mike Scott所编制的Wordsmith软件包。这套软件不仅提供了词语检索(Concordancing)并共现上下文的常用功能,还可统计计算出索引单位搭配行为的T(或Z)值、信息相关值(即MI:mutual information)和x平方值,并予以列表显示。它还能快速识别某种文体中经常出现的多词集合,且提供在整个语料库中对英语教师和英语学习者具有价值的语言特征。就连传统的关键词(keyword)功能在Wordsmith软件包中也已赋予新用途,如可列选出在特定文本或文体类型中出现频率特别高的词,以帮助研究者得出某种语域或文体的显著词汇特征。,9,3.运用
6、语料库进行外语研究:方法和实例3.1 分析词语的方法3.1.1 不同语域词频差异的调查 3.1.2 根据搭配调查语义差异3.1.3 根据搭配调查语义韵差异3.2 学习者中介语的调查3.2.1 学习者与本族语者之间的对比3.2.2 不同母语背景学习者之间的对比3.2.3 不同层次学习者之间的对比,10,3.1 分析词语的方法,3.1.1 不同语域词频差异的调查 undell就曾利用的口语部分调查发现:began在书面语中出现的次数几乎是started的两倍,而在口语中出现的频率要比started低得多。,11,certain, sure, definite在社会科学和小说中的 频率分布图,不同语
7、域词频差异的调查,12,certain, sure, definite不同语域频率分布差异,在社会科学类文本中,用的最多是certain(1百万词中359次),其次是definite(114次),sure最不常见(74次);而在小说类型的文本中,sure比certain要常见得多(353次对179次),而definite就极为少见(仅11词次)。这说明在表达比较严谨的文本中,更倾向于使用certain和definite,而在表达相对自由的小说中,较为口语化的sure用得更多。不同语域同义词的取舍有一定的指导意义,形成一定的优先原则。如在社会科学类的文本中,可优先考虑certain,其次为def
8、inite;而在小说中,则sure将是首选,其次才为certain。,13,3.1.2 根据搭配调查语义差异: take a job 和take on a job,14,3.1.2 根据搭配调查语义差异: take a job 和take on a job,观察take a job索引例句的搭配,尤其是右搭配,发现与它共现的词有:(1)工作类别:as a European commissioner,as a pizza delivery, with the Ministry of the Interior, modeling,in football(2)工作时间:part-time,summe
9、r(3)工作报酬:paying 由此可以看出,take a job多指“干什么样的具体工作”,与之相关的有“工作付多少报酬,工作是全职或兼职”等,核心意思是“就业”。,15,3.1.2 根据搭配调查语义差异: take a job 和take on a job,同样观察take on a job的索引例句可以看到与其共现的词语有:(1)工作内容(并非职业):scrapping excess capacity, compiling the electoral register, defending, grain preparation(2)工作压力:stressful job-loads,dem
10、anding,stress-loaded(3)无报酬:unpaid 可见,take on a job多表示“把责任赋予某项工作,不管有无报酬”,其它未在此列出的搭配词,还有诸如role(s), responsibility/ies, task(s), work, commitment(s), burden(s), challenge(s)等,它们都显示出take on a job的核心在于“责任”。,16,3.1.3 根据搭配调查语义韵差异:cause和lead to,cause多与表示疾病、伤害、不佳情绪、问题、困难等含义的词语一起出现,几乎全含有否定和消极的意味,这说明cause导致的基本
11、都是坏的结果,语义韵特征上倾向于否定和消极。 rash, greater injury, complaint, irritation, severe embarrassment, shortages, initial problems, fluid retention, styling problems, difficulty, fatal problems, all sorts of havoc, anxiety, slowdown in deficiency disease, more violence, later harm, poor weather, a host of proble
12、ms, terrible damage, heart attack, tension, cancer damage, trouble, sorrow, confusion, lack.,17,3.1.3 根据搭配调查语义韵差异:cause和lead to,而对lead to 搭配的观察,则没有发现明显的倾向性:其客体既可是肯定的,如“notable improvement, great successes,permanent opportunities, new developments, professional qualification, improved human health, h
13、appiness,formation, specification”等;也可是否定的,如“loss of life, more problems,unfair advantage and conflict, immediate withdrawal, drug taking and crime, anxiety attacks, serious problems, water loss and damage, scarring, holes, prosecution increased risk”等。就整体分布而言, 两者几乎平分秋色。从这一点来看,lead to不存在语义韵的显著差别,既可引
14、起好的结果,也可导致坏的结果。,18,语义韵差异的拓展研究:,A.义韵冲突反讽的出现义韵冲突不仅是非诚意性的信号,也可能是反讽出现的标志。因为任一反讽性言语行为的实施过程都存在着非诚意性,非诚意性因而成为判断话语是否具有反讽性的主要标尺,所以在一定条件下,义韵冲突-非诚意性-反讽成立。说话人(作者)有时为了实现反讽,会故意违反正常的语义韵律,有意打破人们的期待模式,使听者(读者)因为惊异于话语语义结构的不一致,而推测出说话人的反讽意图。,19,A 义韵冲突反讽的出现,语用学认为,话语具有什么样的言外之力,是否具有反讽性,须借助语境和言外之力指示手段才能判断(涂靖,2000:52)。言外之力指示
15、手段之一就是话语的语义结构中的冲突,即话语中含有明显违反选择性限制的用词,如例1中的thank 和refuse to help,例2中的congratulate和stupid。 1I thank you for your refusing to help me. 我感谢你拒绝帮助我。 2I congratulate you on your stupid speech at the meeting. 我祝贺你在会上作出的愚蠢发言。,20,B 词典编撰,语义韵律作为词语语义的一部分,对学习者而言是很重要的信息,能帮助他们在合适的语境中正确地使用该词。但学习者赖以获取信息的词典是否提供了这方面的信息
16、呢?词典中对rife的解释:Websters1979年版:1. prevalent; frequently or commonly occurring; current.2. abundant; plentiful.3. filled; abounding; followed by with. 在牛津现代高级双解词典1988年版中,rife中文释义为流行的;普遍的,英文释义为widespread; common,此外没有任何附加说明。两部词典的释义都没有反映出rife内含的贬义,使学习者极易误认为rife等同于释义中的abundant,plentiful,widespread,common等词
17、,可适用于同样的语言环境。,21,B 词典编撰,利用语料库编撰的Collins COBUILD English Language Dictionary 1987年版才清楚地描述了rife的语义韵律特征:1.If you say that something bad or unpleasant is rife, you mean that it occurs very frequently.2.If a place is rife with something bad or pleasant, it contains a lot of it.所附的例句更清楚地说明了这一特征:1.Bribery
18、and corruption in the government service were rife.2.Graduate unemployment is rife.同样用语料库编撰的朗文当代英语词典1995年版也以类似的形式描述了rife的语义韵律特征。 语义韵律在词典编撰中应该受到越来越多的重视。虽然目前对语义韵律的分析调查还没有系统化和规范化,相当数量的词语(如provide, impressive,peddle,dealings等)的语义韵律特征在有的词典中并未进行描述,从而降低了词典对于学习者的指导作用。,22,3.2 学习者中介语的调查,中介语对比分析的方法(Contrastive
19、 Interlanguage Analysis,Granger 1998) 3.2.1 学习者与本族语者之间的对比参照语料库为:英语本族语语料库对比语料库为:学习者语料库,23,3.2.1 学习者与本族语者之间的对比,研究实例:非英语专业研究生写作中连接词用法的语料库调查研究试图回答以下问题:在一批最常用的连接词的使用频率和选择倾向方面,国内非英语专业研究生是否和本族语使用者存在着显著差异?在使用某个连接词表达语义关系方面,国内非英语专业研究生是否和本族语使用者存在着显著差异?本研究分以下步骤:首先,调查20个连接词在两个语料库中的出现频率,并按频率高低进行排序和比较,以回答第一个问题。它们分
20、别是:and, because, but, for example, for instance, furthermore, however, in addition, in fact,in other words, indeed, nevertheless, not onlybut also, on the other hand, so, then, therefore, though, thus, while。然后,选择位于句首的And,对其语义关系在两个语料库中的分布差异进行调查分析,以回答第二个问题。,24,前20位连接词排序和出现频率(每10万词次出现频率),25,And语义关系的分布
21、比较:,26,And语义关系的分布比较:增补、因果、转折、比较、层进、引题、原因、说明、列举、总结,27,若需更多细节,可查阅以下文章:,1.非英语专业研究生写作中连接词用法的语料库调查 现代外语2004年第2期2.语义韵律的语料库调查及应用研究 当代语言学2003年第2期3.语料库语言学与外语教学思想的转变 外语学刊2000年第4期4.语料库规模增长原因探查 外语学刊2004年第3期5.学习者语料库与外语教学和研究 北京第二外国语学院学报2006年第4期6.语料库研究与外语教材编写 武警指挥学院学报2005年第5期7.基于语料库的词语差异性特征调查 山东外语教学2000年第4期8.语料库语言
22、学的最新动态和未来发展趋势 山东外语教学1998年第4期,28,常用语料库网址,中国学习者英语语料库 CLEC介绍 在线检索 WordSmith Tool 下载 在线检索英国国家语料库 BNC 英汉平行语料库 The Babel English-Chinese Parallel Corpus 台湾中央研究院 现代汉语平衡语料库 俄国国家语料库(俄语) Collins Sampler of the Bank of English British National Corpus American National Corpus,29,常用语料库资源链接汇集,http:/202.204.128.82
23、/sweccl/Corpushttp:/ BNC-World Simple Search http:/thetis.bl.uk/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context.2. Brown, LOB, BNC sampler Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also
24、 some parallel English-Chinese corpora.English: http:/.hk/concordance/WWWConcappE.htmEnglish: http:/www.lextutor.ca/concordancers/concord_e.htmlParallel: http:/.hk/concordance/paralleltexts/3. Collins Cobuild Corpus Concordance Sampler http:/www.collins.co.uk/Corpus/CorpusSearch.aspx The Collins Wor
25、dbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text.,30,常用语料库资源链接汇集,4. New BNC interface - VIEW: http:/view.byu.edu/5. Samples (about 2 million words) from the British National Corpus: both written and spoken The Brown Corpus and many others - native,
26、learner. Go to http:/www.lextutor.ca/concordancers/concord_e.html6. CLEC online concordancing http:/ CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see http:/ Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Lin
27、guistics. Cambridge: Cambridge University Press. (外研社引进) Granger, S. et al. (eds.). 2003. Corpus-based Approaches to Contrastive Linguistics and Translation Studies基于语料库的语言对比和翻译研究. Amsterdam: Rodopi. (外研社引进) Gries, Stefan Thomas. 2004. Multifactorial Analysis in Corpus Linguistics: A Study of Partic
28、le Placement. Beijing: Peking University Press. (北大出版社引进) Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进),32,语料库书籍推荐:,Nattinger, James R. & Jeanette S. DeC
29、arrico. 1992. Lexical Phrases and Language Teaching. Oxford: Oxford University Press. (外教社引进) Sinclair, John. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press. (外教社引进) Thomas, Jenny & Mick Short. 1996. Using Corpora for Language Education. London: Pearson Education. (外研社引进) Za
30、nettin, F., et al. (eds.). 2003. Corpora in Translator Education语料库与译者培养. Manchester: St. Jerome Publishing. (外研社引进),33,语料库书籍推荐:,蔡金亭,2003,语言因素对英语过渡中使用一般过去时的影响。北京:外语教学与研究出版社。 何安平(主编),2004,语料库在外语教育中的应用:理论与实践。广州:广东高等教育出版社出版。 何安平,2004,语料库语言学与英语教学。北京:外语教学与研究出版社。 华南师范大学外国语学院编,2005,语料库语言学的研究与应用。长春:东北师范大学出版
31、社。 黄昌宁,李涓子著,2002,语料库语言学。北京:商务印书馆。 濮建忠,2003,学习者动词行为:类联接、搭配及词块。开封:河南大学出版社。 王建新,2005,计算机语料库的建设与应用。北京:清华大学出版社。,34,语料库书籍推荐:,王克非等,2004,双语对应语料库研制与应用。北京:外语教学与研究出版社。 王立非、梁茂成等,2007,计算机辅助第二语言研究方法与实用。北京:外语教学与研究出版社。 卫乃兴,2002,词语搭配的界定与研究体系。上海:上海交通大学出版社。 卫乃兴,李文中,濮建忠等,2005,语料库应用研究。上海:上海外语教育出版社。 文秋芳、王立非、梁茂成,2005,中国学生英语口笔语语料库。北京:外语教学与研究出版社。 杨达复,2000,英语错误型式分析。西安:陕西人民出版社。 杨惠中、桂诗春,2003,中国学习者英语语料库。上海:上海外语教育出版社。 杨惠中、卫乃兴,2005,中国学习者英语口语语料库建设与研究。上海:上海外语教育出版社。 杨惠中等(主编),2005,基于CLEC语料库的中国学习者英语分析。上海:上海外语教育出版社。 杨惠中主编,2002,语料库语言学导论。上海:上海外语教育出版社。,35,Thank You for Listening!,Comments are welcome! Contact me:,