1、汉字字频统计方法的改进的策略一、汉字字频统计的概念在汉语汉字的语境下,汉字字频常常简称为字频,汉字字频是汉字使用的一个重要属性。冯志伟指出:“传统的文字学认为,汉字具有形、音、义三个要素,但是,汉字作为记录汉语的符号,它必须作为一种交际工具而存在,在交际过程中,有的汉字使用得多些,有的使用的少些,呈现出一定的统计规律性。因此,从使用的角度来看,汉字还具有第四个要素字频。 ”顾名思义,字频就是字的使用频度。苏培成在现代汉字学纲要 (增订本)给字频下的定义是:“字频就是汉字的使用频度,是指在一定的历史时期内经抽样取得的文字资料里,每一个汉字的使用次数与抽样资料总字数的比例。 ”他所说的“字频” ,
2、就是指汉字字频。沙宗元在文字学术语规范研究中收了“字频”这个词条,他给出的定义是:“某个汉字在一定语料中使用(出现)的次数与样本总字数(又叫样本容量)之比。 ”这个“字频”也指汉字字频。两家的定义大体不错,但表述不够严密。第一,用来作为字频统计的文字资料不一定是经抽样取得的,如史记的字频统计这类专书字频统计是根据特定目的选取的,而非“经抽样取得”的。 “经抽样取得”不能作为字频统计的必要条件。第二, “总字数”的说法比较含混,应该改作“总字次”。第三, “样本总字数”的“样本”表意不明确。综合学术界的研究,汉字字频可以定义为:个体汉字字符在按特定原则选定的文本中出现的次数与选定文本总字次之比。
3、对使用中的汉字进行字频统计,并按字频的高低排列汉字的顺序即可以得出汉字的频序,依据频序给汉字分级可以划分出汉字的频级,汉字的频级是对使用中的汉字进行分级的主要依据,对汉字规范、汉字教学及汉字信息处理有重要意义。汉字字频统计是汉字研究中的一项具有实用意义的重要工作。二、汉字字频统计的主要成果以往的汉字字频统计与研究取得了重要的研究成果,为汉字的研究与应用作出了重要的贡献。字频统计一般分综合字频统计及分类字频统计两类。其代表性成果主要有以下几项:现代汉字综合字频统计的主要成果有:1.汉字频度表 ,此表于1976 年 12 月由“七四八”工程查频组完成。本次字频统计使用的语料时间范围为 1973-1
4、975 年,语料内容包括科学技术、文学艺术、政治理论和新闻通讯四类,统计方式为手工操作。备选语料 3 亿多字次,选用语料 2160 多万字次,统计得出 6376 个字种。2.汉字频率表 ,此表包含在北京语言学院语言教学研究所编的现代汉语频率辞典中,1986 年6 月由北京语言学院出版社出版。本次字频统计使用的语料时间范围较多选用 20 世纪 40 年代至 70 年代的作品,语料内容包括报刊政论文章及专著、科普书刊材料、剧本和日常口语材料和各种体裁的文学作品四类,统计方式采用人工和计算机相结合。选用语料 180 万字次,统计得出“不同汉字 4574 个” 。 (参考该书“前言”和编纂说明)3.现
5、代汉语字频统计表 ,此表由北京航空学院计算机科学与工程系和国家语言文字委员会汉字处研制,于 1992 年 1 月由语文出版社出版,出版署名单位是国家语言文字工作委员会和国家标准局。本次字频统计使用的语料时间范围为 1977-1982 年,语料内容包括自然科学和社会科学两大类,统计方式完全采用计算机自动统计,选用语料 13800 万字次,抽取出的统计样本语料 11873029 字次,统计得出汉字 7754 个。 (参考该书说明)4.报纸、广播电视、网络用字总表 ,本表收录在“中国语言生活状况报告”课题组编中国语言生活状况报告(2005) 中, 报告于 2006 年 9 月由商务印书馆出版。 中国
6、语言生活状况报告(2005) 是由国家语委首次向社会发布的年度语言生活报告,其中的报纸、广播电视、网络用字总表是 2005 年年度用字字频统计表。该表语料时间范围为 2005 年,语料介质包括报纸、广播电视和网络,统计手段采用计算机,共选择892034 个文本文件,包括 732143010 字次,统计得出字种数 8128 个。(该书把字种界定为“这里的字种,指字形不同的汉字。 ”)古代文献使用汉字的综合字频统计成果主要有古籍汉字字频统计 ,该书由北京书同文数字化技术有限公司编写,2008 年 7 月由商务印书馆出版。本书统计的语料为电子版四库全书和四部丛刊 ,统计方式完全采用计算机自动统计,使
7、用语料 8 亿字次,统计得出汉字 30127 个。(在该书收录的“大规模古籍汉字用字统计报告”中“统计结果汇总与初步分析”一节中介绍该书统计出的总字数时说:“1.文渊阁四库全书汉字总字数:29088 字;2.四部丛刊汉字用字总字数:27606 字;3.四库全书与四部丛刊汉字用字合计:30127 字。 ”但是该书古籍字频统计表的顺序号的最后一号是 30136,比 30127 多出 9 个数字。查古籍字频统计表中含有部分空格和非汉字符号,如八卦卦符、古琴书中的指符等,甚至有新式标点和网址符。因此,本书给出的总字数并不准确,只是个大致的数字。 )古代文献专书使用汉字字频统计的成果主要有史记字频研究
8、,李波著史记字频研究 ,2006 年 3 月由商务印书馆出版。该书的字频统计以汉代司马迁所撰史记一书的全部文字为对象,选择中华书局标点本 130 卷史记三家注本作底本,统计方式采用计算机手段。全书计572864 字次,统计得出 4932 个字。上述字频统计的成果在汉字理论研究和现实应用等方面起了重要作用。理论研究方面,如周有光在字频统计成果的基础上发现了汉字效用递减率。王凤阳在字频统计成果的基础上发现了汉字常用字笔画递减率。社会应用方面,如 1980 年由国家标准总局发布,1981 年 5 月 1 日实施的信息交换用汉字编码字符集基本集是在汉字频度表的基础上研制完成的。1988 年 1 月 2
9、6 日由国家语言文字工作委员会、国家教育委员会联合发布的现代汉语常用字表的研制参考了汉字频度表 (常用字部分 4152 字) 、 社会科学、自然科学综合汉字频度表 (常用字部分 3500 字)和汉字频率表 (4574 字)。1988 年 3 月 25 日由国家语言文字工作委员会、中华人民共和国新闻出版署联合发布的现代汉语通用字表也参考了上述字频统计成果。这些字频统计的结果和在字频统计成果基础上研制的字表对汉字教学、汉字水平测试、汉字识别、汉字信息处理、汉字字典编纂、汉字规范等工作都起到了重要的参考作用。三、汉字字频统计存在的主要问题尽管汉字字频统计取得了诸多重要的研究成果,但是,由于受汉字自身
10、的复杂性以及汉字信息处理技术的局限性等因素的影响,目前的汉字字频统计还存在很多问题,影响了字频统计的质量。其问题主要表现在以下几个方面:1.近些年来多数汉字字频统计依据的是电子语料库,这些电子语料库建库目标主要是为语言研究服务的,加之计算机字库收字的限制,在把纸质文本转换成电子文本的过程中未能保持文字使用的原始状态,影响到统计结果的客观性。比如,1956 年 1 月 28 日国务院全体会议第 23次会议通过了关于公布汉字简化方案的决议 ,1956 年 1 月 31 日人民日报全文发表了国务院的关于公布汉字简化方案的决议和汉字简化方案 ,在此之前报刊图书主要使用繁体字(偶尔也用简体字) 。195
11、5 年 12 月文化部和文改会联合发布了第一批异体字整理表(以下简称一异表 ) ,要求从 1956 年 2 月起在全国实施,这之前异体字未经整理。1977 年 12 月 20 日人民日报 、 光明日报 、 解放军报及各省、市、自治区一级报纸发表中国文字改革委员会第二次汉字简化方案(草案) ,12 月 21 日人民日报开始试用第二次汉字简化方案(草案) 第一表的简化字,1978 年 7 月停止试用这批简化字,1977年 12 月 21 日至 1978 年 7 月之间人民日报等曾经用过“二简”的字。而北京语言学院语言教学研究所 1986 年编的汉字频率表使用了 1956年 1 月 31 日前的资料
12、,如 1951 年 1 月 31 日的人民日报 、1955 年出版的田汉剧作选 、1954 年至 1955 年在独幕剧选上发表的何求的新局长到来之前 、1952 年人民文学出版社出版的茅盾的子夜的第五、第十九章、1955 年人民文学出版社出版的老舍的骆驼祥子第十六章、1953 年人民出版社出版的巴金的家第一、第三十八章、1955年人民文学出版社出版的巴金的春第一章等,却没有出现繁体字。使用了 1956 年 2 月一异表实施前的大量资料,却没有出现异体字。以 1951 年 1 月 31 日的人民日报为例,该日报原版中有繁体字“對” 、 “装” 、 “數” 、 “會”等,而汉字频率表有“对(频序
13、60、频次 5138) ”、 “装(频序 435、频次 841) ”、 “数(频序 286、频次 1325) ”、“会(频序 32、频次 7075) ”,而没有“對” 、 “装” 、 “數” 、 “會”等。该日报纸中有第一批异体字整理表中被淘汰的异体“遊(旧字形) ”、“鎻” 、 “週(旧字形) ”、 “誌”等,而汉字频率表有“游” 、 “周” 、“志”等正体,有“鎻”的正体“鎖”的简化字“锁” ,而没有“遊” 、“鎻” 、 “週” 、 “誌”等。该日报原版中文字有旧字形,而汉字频率表中的字均为新字形。推测汉字频率表的研制者在测查文本时按当时的规范修改了原始文本,用规范字替换了不规范的字。这种
14、测查结果显然不能准确反映社会用字的实际情况。又,国家语言资源监测与研究中心编中国语言生活状况报告(2005) (下编)的调查报告中明确指出:“报纸文本是从网络下载的,没有与纸质版本作比较。 ”又说:“本次统计不包括以下两种字符:(1)汉字部件。共有 25 个,计 529字次,主要出现在报纸语料或网络语料中。包含以下两类情况中:讲解汉字中用到的偏旁部首,如言语的“语”这个字旁边是个“讠”字旁 。这种部件共出现四个:亻、辶、宀、讠。拼字,大部分出现于人名、地名,如讲述人刘亻思亻思,14 岁,树德试验中学 、 本市宝坻区林亭口镇帐房瞿阝村农民 、 广东中山南(艹朗) (上下结构)镇横门港码头彩旗飞扬
15、 、 20 岁的广西姑娘小(崩刂)昨天回广州了 。 (2)乱码和无法显示的字符。这些字符共出现 765 个,计 23221 字符次,占整个语料字符数的 0.0026%。 ”根据作者的自述,本次统计不是依据原始的纸质文本,而是依据电子文本,并且电子文本并未与纸质文本校对,因此,电子文本转录错误的未加改正。受转录者使用的计算机编码字库的限制,字库中没有的字,在电子文本中或用拼字表示,或用替代符号,或根本无法显示,均不能统计。 (举例中出现的偲、 、蓈、剻四个字在报刊、广播电视、网络用字总表中也都未收录。 )2.未能严格规定统计单位,或规定的统计单位不一致,影响到统计结果的科学性,不同的统计结果也无
16、法进行比较。前面提到的北京语言学院语言教学研究所编的汉字频度表 、北京航空学院计算机科学与工程系和国家语言文字委员会汉字处研制的现代汉语字频统计表 、李波著史记字频研究以及北京书同文数字化技术有限公司编写的古籍汉字字频统计均未明确界定统计单位。只有收录在中国语言生活状况报告(2005) 中的报纸、广播电视、网络用字总表的调查报告中对统计单位有粗略的说明:“字种数:8128 个。这里的字种,指字形不同的汉字。 ”(11)这里无论是用的“字种”这个术语,还是“字形不同的汉字” ,这样对字种的解释,表意都不够明确。首先,使用的字种这个术语与学术界一般的用法不同。周有光在现代汉字学发凡一文中曾用具体实
17、例区别“字次” 、 “字种”和“字形”三个术语,他指出:“从群众中来到羣衆中去,是一条群众路线的原理 。这个句子里有几个字?甲答:20 个字。乙答 16 个字。丙答:18 个字。为什么答案不同?甲讲的是总字次 ,有一个算一个。乙讲的是字种数 ,同字异形合并计算。丙讲的是字形数 ,同字异形分别计算。 ”(12)他在现代汉语用字的定量问题一文中又指出:“定量是定字种的总量。一个汉字可以繁简不同,形体不同,但是属于同一字种 ,以正字为标准。 ”(13)沙宗元在文字学术语规范研究一书中根据周有光的研究设立了“字形数”和“字种”两个术语,并分别给出了定义,他给“字形数”下的定义是:“根据汉字字形而不考虑
18、其繁简、正异等字际关系进行统计所得出的汉字数量。 ”给“字种”下的定义是:“一个汉字即使有多个繁简体、异体字,也只作为一个来计算的汉字统计单位。 ”(14)该文中所定义的两个术语也存在不匹配的问题。跟“字种”匹配的术语是“字形” ,跟“字形数”匹配的术语应是“字种数” 。 报纸、广播电视、网络用字总表中用的字种大致相当于周有光所说的字形。在实际操作中, 报纸、广播电视、网络用字总表繁简字、异体字、新旧字形都作为不同的统计单位来统计的。在该表统计的 8128 个统计单位中包括繁体字 361 个,异体字 193 个,旧印刷字形 47 个,另有不合现行规范的类推简化字 7 个。前面提到的那些未对统计
19、单位作出明确规定的统计,在实际操作中所用的统计单位各不相同。北京语言学院语言教学研究所编汉字频度表的统计单位大致是按照周有光定义的字种来操作的,统计的语料中包含繁简字、异体字和新旧字形,统计结果中有个别异体字和错误类推简化字,但未见繁体字和旧字形,应该是用简化字替代了繁体字,用新字形替代了旧字形。统计出的异体字,包括一异表收录的异体字,如,並(276) 、并(1766) ;黏(1719) 、粘(2495) ;渺(2321) 、淼(4336)等;一异表未收的异体字,如,沙(649) 、砂 1756;衖(1901) 、巷(2034)等;错误类推简化字,如,4475 号“垅” (2189 垄) ;4
20、174 号飚(当是技术错误) 。中国语言生活状况报告(2005) 中的报纸、广播电视、网络用字总表的统计单位近似于周有光的字形,繁简字、异体字、新旧字形均作为不同的统计单位进行统计。表中收录繁体字 361 个(15) ,异体字193 个(16) ,旧字形 47 个(17) 。统计单位的不明确、不统一,不仅影响到字频统计的科学性,也不利于统计结果的正确、有效使用。四、汉字字频统计的改进根据上述情况分析,我们认为必须加强字频统计的理论研究,完善统计原则,改进统计方法,提高字频统计的客观性和科学性。首先,要实现字频统计的客观性,必须建设满足文字学研究需要的字料库。所谓字料库“是指以文字的整理和文字学
21、的研究为目标,按照语言学和文字学的原则,收集实际使用中能够代表特定文字或文字变体的真实出现过的文字书写形态,运用计算机技术建成的具有一定规模的大型电子文字资源库。字料库是在大规模真实文本的基础上生成的真实的文字书写形态的有序集合,是利用计算机对文字形体进行各种分类、统计、检索、综合、比较等研究的基础。 ”(18)只有根据字料库的原则建设字料库,基于字料库进行汉字的字频统计,改变以往基于语料库进行字频统计的做法,才能解决以往字频统计客观性不足的问题,实现字频统计的客观性,使得字频统计能够最大限度地反映社会用字的实际状况。其次,汉字字频统计必须明确界定统计单位,划分不同层级的汉字统计单位,根据不同
22、需要对汉字的不同层级的统计单位进行分类分层的字频统计。汉字统计单位的界定与划分是一个非常复杂的问题,必须专门研究,不是本文能够全面解决的问题。本文仅以印刷楷书为例,以字频统计为目标,示范性地讨论字的概念界定与划分方法。学术界不少学者曾经从文字学的角度对汉字中字的单位做过区分,但是,着眼点又有所不同,有的是着眼于汉字规范对字的单位进行界定,有的是着眼于对汉字使用实际状况的调查对字的单位进行界定。前者,如前文所述周有光在现代汉字学发凡一文中曾区别“字种”和“字形” 。后者,如北京师范大学汉字构形学系列研究,从文本提取字形进行归纳,实际上也涉及汉字单位。王贵元的马王堆帛书汉字构形系统研究是最早从文本中提取字进行构形分析的专著。该书第二章“单字整理” ,专门讨论从文本中提取字制作字表和进行统计的单位问题。文中先讨论了异写字、异构字、同形字三个概念,并在此基础上讨论了字样认同与别异、通行体与变体、单字统计原则等问题(19) 。李运富在楚国简帛文字构形系统研究一书中,也在第二章设立了“单字整理”一章,