人机分词差异及规范词典的收词依据.DOC

上传人:天*** 文档编号:143903 上传时间:2018-07-10 格式:DOC 页数:5 大小:54KB
下载 相关 举报
人机分词差异及规范词典的收词依据.DOC_第1页
第1页 / 共5页
人机分词差异及规范词典的收词依据.DOC_第2页
第2页 / 共5页
人机分词差异及规范词典的收词依据.DOC_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、1 “人”“机”分词差异及规范词典的收词依据 对 645 条常用词未见于现汉的思考 刊辞书研究 2000 年第 2 期 厦门大学 苏新春 顾江萍 一、 笔者在最近作的一项词语调查中,偶然发现一个颇有意味的数据,现代汉语频率词典(下称频率)统计出来的 8548 条常用词, 竟有 645 条没有在现代汉语词典(下称现汉)出现。本来不同性质、不同规模,甚或不同版本的词典之间,它们的收词不同是很正常的,可现汉是以收现代汉语普通话词语为己任的规范词典,且收词规模达 56000多条,却没有收齐 只占其词汇总量约 15%的最常用的词语,这就引人深思:没收的词语是什么样的?有何性质和特点?与现汉现有的词语有何

2、区别?现汉为什么没有收录它们?是现汉漏收还是有其它原因?作为规范词典的现汉应如何确定常用词的收录?正是这些疑问促使笔者开展了进一步的调查。 现汉是我国目前为止反映现代汉语词汇最具权威性的词典。调查的现汉是第二版,即 1983 年版,内容与 1979 年第一版基本相同。频率是我国第一部有严格计量统计数据的现代汉语汇频率词典, 1986 年出版,实际研究工作始于 1979 年。两书截取语料的 时间相当接近,具有较好的可比性。现汉在 1996 年出版了修订本, 645 条常用词中只有 80条增收其中,而占 88%的词语仍未收,因此以第二版的现汉为基本比较材料,再辅之以与“修订版”的比较。 未见于现汉

3、的 645 条常用词中,双音词 370 条,单音词 169 条。 645 条中使用度最高的位于第 57 位(动词的“到”),最低的位于 8547 位(名词的“比方”),平均数为 4921,这个平均数表明它们在 8548 条常用词中排在比较前的位置。在各千字段的分布情况如下: 曲线图显示 645 条未见词语在 8548 条常用词的各千字段中 呈缓慢上升的趋势,但差别不大,也就是说 645 条未收词语均衡分布于按序号排列的 8548 条常用词之中,其常用性有较普遍的性质。 那么这些未见于现汉的常用词有着什么样的结构特征?据此可分出以下四类: 第一类“固定语”。所谓固定语就是它们不太像一般的词语那样

4、有较强的独立运用和较6 4 5 条未见词语分布在8 5 4 8 条常用词中的分布曲线图4358 62 6283 8594 96620204060801001201000 2000 3000 4000 5000 6000 7000 8000 90002 完整的意义的特点,只是在言语使用中紧密地凝合在一起。如“要不是 4106”、“极为 7495”、“售货 2721”、“伤病员 6886”、“不得不 2296”、“就是说 1970”、“绝大多数 8297”、“这样一来 4766”、“从中 6337”、“为的 是 6013”、“恨不得 5811”、“老是 4183”、“较为 6633”、“越来越 1

5、218”。(词语后面的数字表示 8548 条常用词的顺序号) 本类共 88 例,占 13.6%。 第二类“词性分词”。指的是根据不同的语法功能而将同形同音近义,或同形近音近义的词分立为多个词语,而这些词在现汉中都是作为一个词出现的。如“声明(动) 5794” “声明(名) 7369”,“箱(名) 2502” “箱(量) 7181”,“来回(副) 4698” “来回(名) 7478”,“极(副) 405” “极(名) 8087”。本类共 205 例,占 31.8%。 第三类“固定搭配结构”。如“一面,一面 1592”、“ 既又 7629”、“ 来去 4412”、“ 对来说 3982”、“ 分之

6、716”、“ 有点儿 736”。本类共24 例,占 3.7%。 第四类“一般词语”。它们与人们的语感较接近,一般都看作是通用词语,如“变成 509”、“高产 7817”、“全会 5551”、“判处 6271”、“花市 5705”。本类共 328 例,占 50.9%。这部分内容相当复杂,下面将会作专门的分析。 上述一、二、三类显示频率对词语的切分是有 其特殊之处的。主要表现为两点,首先,它看重的是在言语实际中的凝固程度与复现率,只要具备这样的条件就可以切分出来成“词”,故有了类似“来自”“较为”“不得不”“之上”“有所”“得慌”“不是吗”这样的词语。这种切分原则跟通常要求“词”具有“意义的完整性

7、”和“使用上的独立性”有着明显的区别。把结构的凝固程度与频率的复现率放在首要地位来考虑,放在超出于词语意义的完整性和使用上的独立性来考虑,恰恰是词汇计量统计的基本特点。固定搭配结构大量出现的原因也在于此。现汉中已经有了 34 例固定搭配结构的词目,如“半不 ”、“大特”、“似非”等,只是频率更加注意反映这种固定搭配结构,提炼出来立目的数量多,划分细。 其次,重视语法功能的差异,不同语法功能的用法都切分出来独立为不同的词目。拙文同形词与“词”的意义范围 曾经指出这是现汉分词的特点之一,如把名词的“赤膊”和动词的“赤膊”分成两个词。而频率在这点上更进了一步,分割的词语数量多,离析的语法功能更细微。

8、如“包”有名、动、量三个词,“到”有补、动、介三个词,“顶”有名、动、副、量四个词。 645 条未见词语中共有 169 例单音词,就全都属于据语 法功能分词的范围,占到据词性分词总数 202 例的 84 %。据词性分词凸现了词的语法功能,使得词语的意义和功能单一化,还使多义词的处理变得简单化,这正好满足了机器语言处理的需要,大大方便了机器对语言的加工和处理。 上述两个特点体现了“机器分语”的性质和要求,它们直接影响到第二、三类的全部和第一类的大部,数量占到 645 条常用词的几乎一半。而现汉的分词则基本上还是考虑词语意义的完整性和使用上的独立性,这种分词原则可以说是“人的分词”。两种不同的分词

9、原则,必然会产生不尽相同的分词结果。不认识到这点,以此框彼,或以 彼框此,都有失准衡。这就是本文的题目用“未见”而不用“缺收”或“漏收”的原因。 二、 3 下面再来看看第四类“一般词语”的具体情况。这类词语有 328 条,占总数的 50.9%。它们在词义的完整性与使用的独立性上都很接近于人们平常对“词”认识的语感,这样最想提出的问题就是:它们与现汉现有词语有何不同?现汉为什么没收它们?为了解答这些问题,下面从两个角度来作些分析。 首先来看看它们与现汉已有词语的关系如何。 词缀不同 实词素不同 完全不同 328 12 59 257 100% 3.7% 18% 78.4% 1,“词缀不同” 频率

10、现汉 小孩子 小孩儿 差点儿 差点 一点 一点儿 兜儿 兜子 象样儿 象样 2,“实词素不同” 频率 现汉 吉普 吉普车 轻 工 轻工业 噪声 噪音 四面八方 四面 飞蛾 飞蛾投火 膝盖 膝盖骨 欣欣向荣 欣欣 3,“迥异” 三月、大字报、可贵、院校、飞奔、成千上万、特有、眼科、官军、晴纶、衣袋、辨识、蓝色、抽烟、教研、细长、西部、大战 “词缀不同”与“实词素不同”两类共 71 例,它们在现汉中都有与之相关的词语。由于汉语语素的独立性,由于书面语的文字形式与口语词的语音形式难以完全对齐,出现这些的差异是可以理解的。也就是说这 71 例词语虽然不见于现汉,但现汉实际上并不缺乏对它们的反映,人们只

11、要认识了其中的一个词语,另一个也就基本上能认识了。而“迥异”的 257 条则与现汉无甚干系,未收录它们造成了现汉词目的实际上的缺损。 为了更好地探讨现汉为什么没有收录这些词语的真实情况,下面再从意义分布的角度来作些观察: 称谓词 时间方位 词 时代词 生活词语 4 328 40 23 36 229 100% 12% 7% 11% 70% 1,“称谓词”。如:班长、连长、营长、团长、军长、所长、会长、组长、院长、区委、区书、处长、村长、部长、市长、局长、厂长、师姐、师哥、船主、爸爸、大伯、表哥、师姑。 2,“时间方位词”。如:一月、二月、三月、四月、五月、六月、七月、八月、九月、十月、十一月、十

12、二月、今晚、有时候、那边、一旁、东面、中部、西部、星期一、星期天。 3,“时代词”。如:常委会、党委会、军委、社队、井队、红旗手、工农兵、干校、包产到 户、大跃进、纪念堂、微处理机、帮派、极左、派性、帮派、四化、大字派、工联、匪军、黑狗、保皇、国民党、伪军。 4,“生活词”。如:槐树、储量、深处、绑带、炎夏、头部、乳白色、楼下、棉条、诗句、夜空、手电、手臂、毒性、石碑、笔杆、判处、山野、褐色、油液、暗堡、抚摸、前来、残渣、产区、田径。 在谈论这四类词语该不该收进现汉,先得准确认识规范词典的性质与作用。虽然现汉的任务是“完整地记录民族共同语的词汇体系”,而不象一般的词典那样完全以“释义解惑”为主

13、, 但象“称谓词类”中那样成系列的官职称呼、“时间方位 词类”中成系列的年月词、星期词、方位词,是否都需要收录,还是值得商榷的。这样的词语在汉语中大都一目了然,见字及义,作为词典来说在一个类属名或相关词语作较完整的释义就可以涵盖其它。由于频率重在反映词语使用度的高低,它把频率作为唯一的标准,可以一刀切而不顾及其它。现汉中有“星期”和“星期天”两个词,在“星期”词目下解释了星期的来历及其七天的构成,而频率则除了“星期”“星期天”外还收了“星期一”,其原因大概就是因为“星期一”出现的频率高。至于为什么不收“星期二”“星期三”,这就不是频率所要解决 的问题了。作为规范词典的现汉则除了词频外,还得考虑

14、收词的平衡性、相关性、可释性等一系列因素。如此看来,“称谓词”和“时间方位词”中的大部分词语不被现汉收录是有一定道理的。 而占到“一般词语”中 82%的“时代词”与“生活词”则不属此类。“时代词”与时代、社会密切相关,只要它稳定下来了,就应看作是进入了普通话词汇系统,当然也就应该成为“现代汉语”词典的反映对象。“生活词”也应按这一原则来定取舍。这两类词语共 265 条,在总共 645 条未见词语中约占 40%,其中的绝大多数都符合普通话词语“稳定”“通用”的特点 ,再加上频率已经显现出来的“常用性”,看作是现代汉语普通话词汇应属无疑。它们被排除在现汉之外,表明现汉在对这两类词语的取舍上存在着某

15、些缺陷。 96 年出版的现汉修订版中,这种情况有所改观, 645 条词语中有 80 条被收进了词典,其中属于“时代词”和“生活词”的达 68 条。如“可爱”“科研”“对岸”“好久”“可贵”“可笑”“没说的”“窍听”“派性”“辨识”“判处”“储量”“抚摸”“头盔”“帮派”“暗堡”“检测”“姊妹”“干校”等。但情况然远未彻底改观。因为无论是 80 条还或 68 条,相比于总数的 645 条, 或是“时代词”和“生活词”的 265 条来说,所占的比例都不高,只有12.4%与 25.7%。也就是说在频率出版整整十年之后,这些经过严格统计出来的词频数5 据仍未受到编纂现代汉语规范词典人们的重视。象下面这

16、些常用词仍被排除在 96 年版的现汉之外就很难说得过去:“各种 666”、“唯物 1091”、“可怕 2579”、“绿色 2760”、“被迫3018”、“各种各样 3611”、“自言自语 4039”、“极左 4206”、“大跃进 4479”、“四化 4577”、“大字报 5904”、“院校 5923”、“某些 5512”、“脸孔 7330”、“军委 8078”(按常用的顺序号排列)。 通过上面的分析可以看到,频率对词的切分和对常用词的认定,有着它特自的要求,体现了“机器分词”的性质和特点。现汉作为主要供“人”使用的词典,在对词的切分上仍保留传统的对词的确认原则和方法。那么现汉在这样的原则和方法

17、下依靠什么来确定词目的取舍?是“词的使用频率”。现汉的编纂者们也认识到了这一点:“选词的依据主要不是看查考的需要,而是看词语在语言使用中出现的频率”, 但实际情况看来与此还有相当的差距。要知道本文所例举的常用词都是位于现代汉语最常用的 8548 条词语之中,而现汉的收词却是它的七倍。如果我们的收词工作能更多地依靠、并依靠更多的词频数据,剔除那些属于“机器”而非“人”的观照下出现的词语,这样的词语基本上就可以用来作为我们的词目。频率作为我国第一部立足于数据库之上的现代汉语词汇计量成果,它统计的语料虽然还只是百万级,而现在有的已达千万级,甚至亿级,但其反映出来的词语等级与覆盖面却大体相当。要编纂更

18、合乎现代汉语词汇实际的规范词典,就必须认真借鉴当代多种词汇语料库的统计数据,参之以精心筛选,才能彻底摈弃源于传统的“我辈数人,定则定矣”的语感 式操作方法,使现代汉语规范词典的收词真正做到科学化、精密化。 现代汉语频率词典,北京语言学院语言教学研究所编,北京语言学院出版社, 1986 版。491-656 页:使用度最高的前 8000 个词词表。 词语后面的数字为现代汉语频率词典按使用度统计的 8548 条常用词的序号,序号愈靠前的表示使用度愈高,愈常见。 苏新春同形词与“词”的意义范围 析现代汉语词典的同形词词目,刊辞书研究 2000 年第 5 期。 晁继周、单耀海、韩敬体关于 规范型词典的收词问题,见现代汉语词典学术研讨会论文集,商务印书馆, 1996 年 10 月 同

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。