大型词典编纂的计算机辅助开发与管理系统.DOC

上传人:天*** 文档编号:649500 上传时间:2018-10-25 格式:DOC 页数:9 大小:237KB
下载 相关 举报
大型词典编纂的计算机辅助开发与管理系统.DOC_第1页
第1页 / 共9页
大型词典编纂的计算机辅助开发与管理系统.DOC_第2页
第2页 / 共9页
大型词典编纂的计算机辅助开发与管理系统.DOC_第3页
第3页 / 共9页
大型词典编纂的计算机辅助开发与管理系统.DOC_第4页
第4页 / 共9页
大型词典编纂的计算机辅助开发与管理系统.DOC_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、辞书研究投稿 03-92 退修大型词典编纂的计算机辅助开发与管理系统 王 惠 李康年摘 要:词典编纂是一项需要投入大量人力、物力、财力的大型语言工程。由于词典包含的信息量巨大,开发周期长,编纂人员多,工程项目所要求的进度与词典的质量保证都是非常关键的问题。为此,我们设计并实现了一个词典编纂的计算机辅助开发与管理系统。该系统已经在北京大学“现代汉语语义词典”的开发过程中发挥了重要作用,它有效地提高了词典编纂的效率和质量;同时,该项研究也是对汉语计算词典学理论的一种有益探索。关键词:词典编纂 词典管理 知识挖掘 自动翻译 计算词典学 1.前言随着自然语言处理技术的迅速发展,词义分析的重要性与迫切性

2、也为越来越突出。为了给计算机自动分析提供更全面、深入的语义信息,北京大学计算语言学研究所与中科院计算所自 1994 年联合开发“汉英机器翻译模型系统”开始,就着手研制面向汉英机器翻译的“现代汉语语义词典” 。1996 年至 1998 年,受到国家 863 高科技项目“通用机器翻译开发平台和汉英机器翻译系统”的支持,语义词典进入到大规模开发阶段,并取得重要的阶段性成果,完成了 4.9 万汉语词语的语义分类和搭配信息描述 1。四年多来,北京大学计算语言学研究所在积极应用、推广该词典的同时,仍不断地投入力量进行词典本身的发展。从 2001 年11 月开始, “现代汉语语义词典”的二期开发工作受到了国

3、家 973 重点基础研究项目(G1998030507-4、G1998030507-1)的支持,由北大计算语言学研究所和中文系联合承担,对词典规模进行较大幅度的扩充,并对全部词语的语义分类及属性描述进行全面修订。在双方的积极努力下,项目进展得非常顺利。目前,现代汉语语义词典的规模与质量都有了显著的提高,共收录词条 6.6 本研究得到国家 863 项目“语言资源建设及相关研究探索” (项目号:2002AA117010-08)与国家 973 重点基础研究项目“面向新闻领域的汉英机器翻译系统” (项目号:G1998030507-4)的支持。2 万,采用 Access 数据库实现。其中包含全部词语的总库

4、 1 个,每类词语各建一库,计 11 个。每个库文件都详细刻画了词语及其语义属性的二维关系。比如,总库中包括词语、拼音、同形、义项、语义类、词类、子类、兼类 8 个属性字段。名词库设 15 个属性字段,动词库设 16 个属性字段。所有的库都可以通过“词语、词类、同形、义项”这 4 个关键字段进行链接 2。现在,它正在一个汉英机器翻译系统中发挥着重要的作用。在语义词典的编纂修订过程中,为了保证词典内容准确可靠,有效地管理编纂人员,同时兼顾工程进度,我们开发了一个计算机辅助词典开发和管理系统,用于词典编辑、校订、检索、排序、检测、自动翻译、版本比较、任务管理等。本系统在 Windows 2000

5、的操作系统下使用 Visual C+ 6.0 编写、运行,采用Access 2000 数据库存储词典数据库。系统的构成主要包括以下 4 个子系统:词典编辑、自动检测、自动翻译、项目管理。2. 词典编辑(Dict_Edit)本子系统的主要任务是对数据库格式的词典文件进行编辑(图 1) 。首先,选中“编辑”菜单中的“排序” ,可采用多种方式对词典进行排序和浏览。3 图 1 语义词典的形容词在“查看”菜单中点击“查询”按钮,即可根据首字、尾字、词类、语义类、义项、配价数等多种条件进行检索,包括组合检索、模糊检索等。比如,选取条件“词语=悲*” ,以“悲”字开头的形容词及属性就都会显示出来(图 2):

6、图 2 首字为“悲”形容词这时,用鼠标左键双击一个词条,比如“悲愁” ,即出现图 3 的编辑界面,在此可填写或修改词语的各种属性值,也可在词库中添加、插入、删除词条。图 3 词典编辑工具为了提高工作效率和一致性,机器能做到的事情我们尽量让机器去做。比如,形容词“配价数”的取值范围仅限于“1”或“2” ,因此,该字段就采用下拉菜4 单方式加以选择,这样可以有效地防止填入任何非法的值。语义类划分是一件非常重要而繁琐的工作。该系统把语义分类树集中显示在窗口的左侧,编辑人员填写“悲愁”的语义类时,仅需选中“形容词语义树”中“人性值”下的“境况”类,双击鼠标左键即可自动填入。与此类似, “主体”字段的取

7、值主要是名词的语义类,因此,点击“名词语义树”中相应节点就能完成。这大大减轻了人的记忆负担,同时也最大限度地减少了可能有的手工录入错误,为高质量地完成语义词典提高了可靠的技术保障。3. 自动检测(Dict_Check)在词典编纂中,多角度地检查是非常必要的,它直接关系到词典质量。以前,这些工作主要依靠审校人员完成,花费大量的人力和时间不说,漏查、错查、标准不一等现象也时有发生,词典质量难以保证。但利用计算机来处理这些任务,则有无可比拟的优越性 3。本系统采用以下两种辅助检测手段,在效地保证了语义词典属性填写的正确性与一致性。具体检测步骤如下:3.1 对词典属性值的有效性进行自动检测编纂人员填写

8、各项栏目时,计算机将会自动对所填入的内容加以检查,如果发现某项属性漏填,或者超出规定的取值范围,计算机将会立即弹出错误警告,提醒编辑人员及时核对、修改。(1) 根据字段属性值定义及其相互之间的相互制约关系,自动查错。按照语义词典要求,形容词“配价数”字段的取值范围仅限于数字“1、2” 。如果 “2”,则“主体” 、 “对象”字段必须有值; “配价数”为“1” ,就只能在“主体”填属性值, “对象”字段必须为空。比如, “悲愤”是一价形容词,其“主体”是“人” ,如果“对象”字段有内容,系统就会自动报错。(2) 有些字段的取值范围是一个已知集合,如果超出这个范围,则为错。比如,形容词库中的“主体

9、” 、 “对象”等字段的属性值只能填给定的语义类名称,或用双引号引用的任意字符串。若违反了上述要求,比如在“悲愁”的“主体”字段填入“人民” ,由于名词语义分类中没有这个类,系统会立即弹出5 一个警告框。直至编辑人员把错误改正,才能继续下一个词条。(3)生成出错报表自动检测完成后,计算机将会提供一份完整的错误记录,详细列出以下 5 项错误的出现次数与词条,以提醒编纂人员及时改正。 语义类未填写或无效名称 配价数的取值超过允许范围 配价数和“主体” 、 “对象”等字段配合错误 词语释义未填写 例证未填写3.2 参照其它词典进行横向检测词语的语义分类信息是现代汉语语义词典的重点。在开发过程中,把现

10、有词典的语义分类情况自动提取出来,既可免去填写人员手工检阅工具书之苦,提高工作效率;而且还可自动检查语义信息的填写质量。在“编辑”菜单中选取“词典检测辅助工具” ,即可利用“同义词词林” 4、“知网(HowNet) ”5 等词典对语义类进行检测。比如, “罢工、罢课、罢市”在“知网”中属于同一个语义小类,但语义词典中却分别归入了“自变” 、 “自为”等不同的大类。这说明其中某个词条的语义类很可能填写错误,计算机就会把这一组词集中起来,提交给编写人员重新审查。 4.自动翻译(Dict_Translate)由于语义词典是面向汉英机器翻译系统开发的,因此,它不仅详细刻画了各种汉语语义信息,而且专门设

11、立两个字段“WORD1(英语译文)” 和“ECAT1(英语词类)” 。该项工作以前主要是依靠人工查阅参考书填写,费时费力,而且容易出现录入错误。现在,借助于自动翻译系统,计算机可以从汉英词典 、 英汉大6 词典 、 计算机词典等多种机器可读的双语词典中进行知识挖掘,自动提取英语译文,预填“英语译文”字段。然后,利用一个词法分析器,在“英语词类”字段中自动标注词性(图 4) 。专业人员只需对翻译结果进行人工校订即可。这样,词典的填写工作实际上已转变成了校订工作,无疑可以较大程度地提高效率。图 4 自动翻译与词性标注结果(其中,A 表示形容词,C 表示连词, !表示短语的中心词)5. 版本比较(D

12、ict_Compare)在大型词典的编纂中,版本管理也是比较关键的一个环节。在开发过程中,由于词典的属性信息一直要不断地维护和更新。通过版本比较,可以列出所有更改过的词条和字段。这样,校订人员就可以全面掌握以前的各种修订情况,及时发现并纠正各种错误,防止漏校。这对词典的质量保证显然是非常重要的。7 本系统的版本比较是在以下两个层次上进行的: 记录的比较:清楚地显示出哪些记录是新增加的,哪些是被删掉的。 属性值的比较:这是比较的重点。使用该软件时,在编辑对话框中,各个字段属性值的前后版本对比情况一目了然。如图 7 所示,编辑框分为两部分,左边为当前操作数据库中可以填写或修改的字段,而右边灰色编辑

13、框给出的是原版本中相应的字段值,可供参考、比较,但不能改动。图 5 版本比较工具版本比较工作完成后,计算机将输出一份明细报告,包括以下六项统计数字与详细的修改记录: 新填属性值(空-非空) 删除属性值(非空-空) 属性值变化(x - y) 属性值增加(x - uyv) 属性值减少(uxv - y)8 新增或删除词条6. 词典管理(Dict_Manage)本系统的任务是对整个词典项目进行任务管理、进度管理与质量管理,并对出现的问题进行随时监控。利用图 6 所示的管理软件,词典管理者可以很方便地根据不同条件分割任务,也可以随时合并不同的数据库文件。比如,若要抽取语义词典形容词库中序号为 350-6

14、50 的部分,只需在下图中填上相应的条件即可。图 6 数据库自动分割工具当然,也可以直接点击“分割词典”按钮,把数据库平均分为若干份。对于校订人员,还可选中“条件抽取” ,把满足一定的条件(比如首字或尾字相同,或者语义类相同、配价数相同、 “主体”属性值相同等等)的词条抽取出来,集中检查,以更好地保证校订质量与效率。各个编辑人员完成自己的任务以后,将填写或校订结果分别交给词典管理者。利用管理软件,我们还可以随时把零散的库文件合并在一起。这样,不仅便于词典管理,而且可进行整体的一致性检查,及时发现问题,统一改正,使词典编纂总体上一直保持着较高的水平。9 7. 结语词典编纂是一项耗费巨量人力、物力

15、、时间的语言工程。利用计算机辅助编辑与管理,不仅可以把人从繁琐的重复劳动中解放出来,大幅度地提高编纂效率,而且避免了人的主观因素,从而有效地提高词典质量,降低错误率,保证词典信息具有更高的可靠性和一致性。本系统在“现代汉语语义词典”开发过程中的成功应用,有力地说明了这一点。我们将根据实际使用情况的不断反馈,进一步提高词典辅助编辑与管理系统的性能,使其更为实用、好用。下一步的工作计划是尽可能地提高本系统的通用性,使其不仅可用于语义词典的辅助开发,而且可以很方便地用于其他不同类型的词典编纂。同时,我们也将在词典编纂现代化和计算词典学领域做出更多的探索,加强同各种语言资源(比如:词典、大规模语料库等

16、)的动态链接,充分利用已有的语言知识提高词典的编纂质量,并自动引入每个词条在真实语料中出现的典型用例。参考文献1 王惠,詹卫东,刘群. 现代汉语语义词典的设计与概要.见:黄昌宁主编.1998中文信息处理国际会议论文集. 北京: 清华大学出版社. 1998. 361-367.2 王惠,詹卫东,俞士汶. 现代汉语语义词典规范. 汉语语言与计算学报(新加坡) ,2003(2): 159-175.3 陆汝占. 汉语词典编纂一体化环境(下).辞书研究. 2001(3): 3543.4 梅家驹主编. 同义词词林. 上海:上海辞书出版社,1983.5 董振东, 董强. “知网” (Hownet). http:/ . 2000.(北京大学信息学院计算语言学研究所,北京 100871)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。