1、第三届全国现代汉语词汇研讨会,厦门大学,2000-10-25现代汉字的范围及其属性标注刊汉字文化2001 年第 2 期厦门大学 苏新春 廖新玲“现代汉字”作为一个学科术语其内涵已经确定,以它为研究对象的“现代汉字学”已经建立,但“现代汉字”的范围有多大,包括多少汉字?哪些汉字?却处在若隐若现、似有若无之中。1988 年 3 月 25 日国家语委、新闻出版署公布了“现代汉语通用字表” ,共有 7000 字,其中包括一级常用字 2500,二级次常用字 1000,剩下的 3500 字可以称之为三级字。7000 通用字作为国家标准颁发,称之为现代汉字大概是可以的,这就是说“似有”的原因。但又说它“若无
2、” ,是因为没有一部现代汉语的字典词典是按照这个范围的汉字来编写的,即使是称之为“现代汉语的” 、 “规范的” 、 “标准的” 、 “权威的”字词典也是如此。下面就来详细看看几部字词典的收字情况:新华字典 (商务印书馆,1998 年版) , 修订说明:“修订后的字典计收单字(包括繁体字、异体字)10000 余个” 。中华字典 (中华书局,1999 年版) , 凡例:“以现代汉语通用字表为主体,适当补充若干经过选择的在现代汉语中仍有实用价值的字。 ”现代汉语规范字典 (语文出版社,1998 年版) , 凡例:“收录现代汉语通用字表全部 7000 个通用字和一部分现代汉语中能见到而又不十分生僻的字
3、。为了便于读者查考,在正编外酌收一部分生僻字作为备查字。正编及备查字共收单字 10000 个。 ”这三部书的性质和规模都差不多,它们大体上都是“以收录现代汉语通用字为主要内容” (规范字典 ) , “主要供中小学教师和学生使用,中等文化程度以上的读者也可参考” (新华字典 ) 。但它们的收字都在 1 万上下,比7000 通用字多出 3 千。现在问题在于,究竟是通用字的范围定得小了点,既然中小型字典收的都是 1 万字,为什么不就把那 3 千字放入通用字呢?还是这些字词典名不符实,贪多求大,多收了约三分之一的非现代汉字?当然,字词典有一个查考的功能,但如果真正是“在现代汉语中仍有实用价值的字” ,
4、那现代汉语通用字就不应将它们排斥,而应将其纳入其中,再分出个四级或五级;如果这些汉字只是专业人士,读专业书籍才用得上,那就不应该在如此性质与规模的字词典中收录。正是由于这一矛盾未能解决好,才使得“现代汉字”一直处于一种朦朦胧胧的状态,才使得作为国家标准的“现代汉语通用字”难以落第三届全国现代汉语词汇研讨会,厦门大学,2000-10-25到实处,才使得现代规范字典在收字上各行其是,没有明确的标准。造成这一困惑的关键在于对超出 7000 通用字到 1 万字这个范围的汉字该如何看待。对它们的看法直接关系到对“现代汉字”的认定。现有对这部分汉字的说法五花八门,有“难僻字” 、 “古字” 、 “文言字”
5、 、 “书面语的文言字”不等。这些说法看似明确,实则含混;单看清楚,横向比较则参差不齐。下面就以现代汉语词典 (下面简称现汉 )的收字情况来作一深入些的分析,因为现汉的主旨就是反映“现代汉语”的词汇, “为推广普通话、促进汉语规范化服务的” ,它的收字收词应该更符合现代汉语的规范性要求。为了更好地说明问题,文章还将前后隔了 13 年的现汉第二版与第三版作了一些对比。1983 年的第二版现汉收词 56000 余条。经笔者统计单字条目为 10540条,除了一字多条的情况,如“克 1”“克 2”“克 3”“克 4”,使用的单字是 8600个。其中有 1467 个汉字出现了一字多条的情况,出现最多的是
6、“角”与“和” ,分别出现了 8 次。8600 个汉字比 7000 通用字多出了 1600 个,因为通用字表出现得晚,其中有几个列入通用字表的字不见于现汉 (二版) ,但这只是个别现象。那么现汉 (二版)对那些在 7000 通用字以外的汉字是如何认识的呢?现汉 (二版) “凡例”的说明是这样:“一般条目中,标口的表示口语,标方的表示方言,标 书 的表示书面上的文言词语,标古的表示古代的用法。口、方 、书 等标记适用于整个条目各个义项的,标在第一义项之前;只适用于个别义项的,标在有关义项数码之后。有些单字条目,在释义前加,表示是现代不常用的字。 ”现汉 (二版)的标注在 8600 个单字身上有这
7、样几组数据值得注意:1,标了方 的方言词 487 个,其中整字为方言义的 271 个,某个义项属方言义的 216 个。譬如:“【浜】方小河(多用于地名):张华(在上海) 。 ”“【柴】 柴火:木丨草。 方干瘦;不松软。 姓。 ”487 个方言单音词中有 286 个在 7000 通用字之中,不在其中的是 201 个。2,标了书 的书面语文言词语有 1671 个,其中整字为文言义的 1289 个,某个义项属文言义的 382 个。如:“【霭】书云气:烟丨暮。 ”“【秉】书拿着;握着:笔|烛。 书掌握;主持:政。 古代容量单位,合十六斛。 姓。 ”1671 个文言词语中有 1215 个在 7000 现
8、代汉语通用字的范围,不在其中的是 456 个。3,标了“”的不常用字(即难僻字)有 852 个,如:“【浡】振作;兴起。 ”其中 160 个在 7000 通用字的范围之中。把上述数据用表格反映是这样:第三届全国现代汉语词汇研讨会,厦门大学,2000-10-25数量类属整字 部分义7000 通用字内 7000 通用字以外4871 方言字271 216286 20116712 文言字1289 3821215 4568523 难僻字852 0160 692要提出说明的一点是:上面的 1,2 两类是从汉字的表义来说的。有的是单字本身就是方言字、文言字,如“浜” “俺” “煲” “趵” “甭” “凼”
9、。有的则单字是常用字,但其中的某个义是方言义或文言义,如:“【别】: 分离:告 丨临丨久重逢。 另外:人丨有用心。 方转动;转变:好把头了过去。 ”因此,整个字义都属于方言义或文言义这样的单字,对我们认识现代汉语通用字的性质与规模更有帮助。而第三类难僻字则完全是从汉字本身的使用情况来分析的,这是纯粹的文字问题,它的出现正好是与通用字形成互相对立的两面。上面的调查数据会使人们生出这样的疑问:首先,第二组数字表明文言用字中属于现代汉语通用字的占三分之二,在其外的占三分之一,具体数字是 1215456,那么这两类文言用字之间有无区别?而且 456 个只占 7000 通用字以外 1560 中的一小部分
10、,对那剩下的既非通用汉字,又非文言用字的 1104 个汉字该如何认识?其次,第三组数字中位于通用字范围内的 160 个难僻字与不属于通用字的692 个难僻字有无区别?再次,把全书通用字以上的 1600 个减去不属于通用字的 456 个文言字、692 个难僻字,仍有 452 个。这是三不属(既不属于文言字、难僻字,也不属于通用字)的汉字。对它们该如何认识?看来这是汉字属性标注中留下的一个空白地带。这些有待解决的疑问本身,显示现汉 (二版)在对汉字属性的标注上还没有做到逻辑清晰、分布清晰。虽然方书 是从字词来源来说的, “”是从常用与否来说的,两个角度互不相同;也虽然从标注情况来看,书与“”第三届
11、全国现代汉语词汇研讨会,厦门大学,2000-10-25是有所分工的,标了书的就没有“” ,标了“”的也就没有标书,二者不同现,但标注的结果显示各类之间出现了很大的一块交叉,还留出很大的一块空缺。本来标“”的难僻字与 7000 通用字的考虑角度比较一致,是希望补其不足,可惜判断的结果却相去较大,因为 160 个标了“”的难僻字出现在7000 通用字范围之内了。当然现汉 (二版)在前,通用字表在后,二者不一致是难免的,但排除掉这点仍不能说它在理论上对此的认识是清晰的。现汉 (二版)其实是发现了这种标注含混情况的,它在 96 年出版的第三版中就干脆取消了对难僻字的“”标注,而大都上以书的标注来代替。
12、如那些处在 7000 常用字范围以内的作了“”标注的 160 个难僻字,就有 145个改标了书。如:【诐】 “ 辩论。 不正。 ”(第二版)“书 辩论。 不正:辞(邪僻的言论) 。 ”(第三版)【晡】 “申时,即午后三时至五时。 ”(第二版)“书申时,即午后三点钟到五点钟的时间。 ”(第三版)【犨】 “ 牛喘息声。 突出。 ”(第二版)“书 牛喘息的声音。突出。 ”(第三版)可是以书代“”又带来另一个问题,就是造成了书的范围扩大。象83 年版有 1671 个单字标了书,其中属于通用字的有 1215 个,分属一、二、三级常用字的分别是 177、106、932。由此可见,书大量存在于通用字中,把本
13、来标了“”的难僻字再并入其中,只会使通用度很低的难僻字变得无从辨识,使书类字变得庞杂不清。现汉对汉字属性标注的这种尴尬情况是比较有代表性的。现代的字词典中,不对字词进行时代标注、来源地标注的很少,但作了标注的又大都源于主观判断,使得标注的结果难以做到逻辑一致,也使得各书的标注互异。譬如,现汉收了的“螾” “禖”不在通用字表之内,既没标书,也没标“” ,而在现代汉语规范字典中“螾”列于正编, “禖”列于备查。 现汉中的“卬”和“枊”都是标了“”的难僻字,可前者在现代汉语规范字典中列于正编,后者列于备查。这都说明人们对许多汉字是否属于现代汉字,或位于一种什么时代的性质,认识还相当蒙胧。在收录对象上
14、也是这样,7000 通用字已成为现代汉语普及性规范性的中小型字词典收录的基本内容,但对超出其外的那部分汉字各个字词典的收录有很大的差异。如“螾” “禖” “枊”就不见于中华字典与新华字典 , “卬”不见于新华字典 。 现汉作为一部词典,它的收字量并不小,特别是在收录难僻字上表现出了相当大的勇气。它所收录的汉字有 100 多个字在现在通行第三届全国现代汉语词汇研讨会,厦门大学,2000-10-25的 windows 的 GBK 大字库或“字符映射表”中都找不到,如左右结构的“(人匡) ”、 “(口比) ”、 “(氵虢) ”、 “(手寨) ”,上下结构的“(日丝) ”“(竹废) ”。而这样的电脑字
15、库收字多达 2 万个。 现汉的前后版本之间对收字表现出了很强的承继性。83 年版中除少数字成为异体字与多音多义字的分合外,被删除的只是极个别(如“圕” “(巾穴登) ”) ,绝大部分都由 96 年版所继承。96 年版的收字达 8798 个,新增的 198 个汉字,除少数几个是新造字、方言字、异体字、新规范字外,如“唛” “濠” “肏” “跤” “臿” “啰” ,大多就是现代生活中极少能用到的难字僻字,如“柃” “桵” “箄” “顣” “骉” “螲” “柂” “鼪” “藟” “咡”“媠” “栭” “飜” “馞” “荈” “睋” “蔀” “蔊” “瓝” “遌” “弝” “馝” “骳” “鬙”“鰇”
16、 “芘” “煐” 。这种现象显示 96 年版现汉反映“现代汉语”的功能有所减弱,而服务于读古书、专业书的“查考”功能却得到了加强。鉴于以上情况,本文提出两种选择性的意见:第一,既然是服务于现代汉语规范的中小型字词典,收录的就应该是现代汉字,即 7000 通用字。使现代汉语性质的中小型字词典真正做到为人们大众服务,为汉语的现代化、规范化服务。也使我国的字典词典编纂真正做到科学化,避免辞书编纂中古今不分,俗雅不分,专博不分的毛病。第二,要就是扩大现代汉语通用字表的范围,将扩大了的字再按照使用频率或使用度的高低分出不同级别。提出这个设想不是没有依据,就是现在没有一部有影响的字词典是严格按照现代汉语通
17、用字表来编纂,这说明 7000 字还不够用。既然如此,不如就此扩大通用字表的规模。这项工作在现代有大规模语料库的情况下不难做到。为信息处理用的字库,20902 个字库也好,中日韩大字库也好,不妨大些。而为人服务的汉字还是要有一定限度的,这个限度就应该在大规模语料统计的基础上,根据汉字的使用频率、使用度、分布率来分列等级。那时,编纂字词典时就可以直接根据通用字的等级来收字,标出其等级数,而取代那些主观色彩浓,难以操作的“古、书、文、 ”标注。规模愈小,愈是针对初中级文化教育水平,符合语文现代化、通俗化要求的字词典,所收的通用字等级应该愈低,反之就扩大通用字的等级。这样将使字词典编纂的科学性得到保证,将使教育、出版、新闻等社会文化工作大受其益。如现在提出的小学生掌握一级常用字,初中生掌握二级常用字,就是一个很好的作法。遵此原则编就的对外汉语教材,也将在汉字和汉语基本词语的掌握上做到更有规范性和可操作性。作者:苏新春,厦门大学中文系教授。廖新玲,厦门大学中文系 98 级研究生通讯地址:福建省厦门大学中文系第三届全国现代汉语词汇研讨会,厦门大学,2000-10-25邮编:361005Email: