1、信息工程学院信息组织与利用课程论文第 1 页 共 5 页中国古籍数字化研究摘要:分析了中文古籍数字化的现状和进展情况, 阐述了我国古籍数字化过程中存在的问题。中国古籍数字化的道路基本上是通过两条路线来进行的,一条是利用计算机对古籍进行揭示,建立古籍的书目数据库,提供读者检索使用;另一条是利用计算机对古籍的内容进行数字化并提供一些相关的知识工具,使读者不仅能通过计算机来阅读古籍,并且能够通过磁盘、光盘和网络进行传播。关键字:中国、 古籍、 数字化1 古籍的涵义古籍的含义,有广义和狭义之分。狭义的古籍,是指辛亥革命(1911 年)以前的人手抄或印刷的著作,或后人经过整理而成的本子。广义的古籍,等同
2、于古典文献,是除狭义古籍意义外,同时还包括文书、卷册、碑铭和拓本等。古籍按不同的标准可进行如下划分:(1)按古籍的质量划分,可以将古籍分为善本古籍及一般古籍;(2)按版本形态,可分为写本、刻本、活体本、石印本、铅印本、影印本等;(3)按其著作形态,又分为点校本、辑佚本、校释本、选注本、今译本等;(4)在装订形态上,又有线装、平装、精装本之分。 2 古籍数字化的涵义 古籍数字化,就是利用现代信息技术将古代文献转化为数字的形式,通过光盘、网络等一切虚拟介质保存和传播。 我国古籍数字化经历了数据库版、光盘版、网络版三个建设阶段数据库版古籍包括书目数据库和全文数据库两种形式。光盘版古籍一般有图像版、全
3、文版和图文版三种类型。网络版古籍主要是将数字化的古籍资源在网络上有偿或无偿发布,供互联网用户使用,这是目前古籍数字化的主要目标。3 中国古籍数字化的现状 1 3.1 中国古籍数字化的历史回顾 虽然我国拥有丰富的古籍资源,但中文古籍的数字化最早是从计算机技术发达的美国开始的。20 世纪 70 年代末,OCLC 和 RLIN 先后推出了朱熹大学章句索引 、 朱熹中庸章句索引 、 王阳明大学问索引 、 王阳明传习录索引、 戴震原善索引等数据库,到 20 世纪 80 年代以后,中国的台湾、香港和大陆才相继开始了中文古籍数字化项目 2。 3.1.1 台湾地区古籍数字化项目 台湾地区从 20 世纪 80
4、年代开始研发大型古籍资源库。1984 年,台湾中央研究院开始的“史籍自动化计划” ,计划开发二十五史(全文资料库) 全文数据库,后在其基础上逐渐增加阮刻十三经注疏等项目扩展成为包括多种经典古籍在内的“翰典全文检索系统” 3。 1989 年,台湾中央研究院提出了 “数字典藏计划” ,古籍数字化包括善本古籍、金石拓片、古籍附图、台湾地方文献及期刊报纸等。1993 年,元智大学罗凤珠教授最早开发出“红楼梦网络教学研究数据中心” 、 全唐诗 、 全宋词古籍资源库。其后,台湾汉学研究中心制作的“善本丛刊影像先导系统” 、中华电子佛典协会的“在线藏经阁”都有一定的影响。 3.1.2 香港古籍数字化项目 1
5、989 年起,香港中文大学中国文化研究所开展有关中国传世典籍数据库的研究工作,中国文化研究所还正式成立“古文献数据库中心” (CHANT Center) ,信息工程学院信息组织与利用课程论文第 2 页 共 5 页并先后推出先秦两汉古籍逐字索引丛刊及汉达古籍数据库检索系统 4。3.1.3 大陆地区古籍数字化项目 从 20 世纪 80 年代起,大陆地区开始出现了古籍数字化的工作,但是研究和成果甚少。直至进入 90 年代以后,随着我国计算机的普及网络技术的介入,才有了古籍数字化的雏形。90 年代中期以后,国家图书馆制订了一个庞大的古籍特藏文献数字化计划,如碑砧菁华、西夏碎金、敦煌遗珍、数字方志以及甲
6、骨文、永乐大典等。北京大学中国基本古籍光盘库 ,计划收录古籍 1 万种 。迪志文化出版有限公司、上海人民出版社推出了文渊阁四库全书全文检索版。书同文数字化技术有限公司推出了四部丛刊的全文检索版。国学公司推出了国学宝典等系列产品。截止 2004 年底,网上可见的中文古籍数据库约 70 多个。北京大学主持的 CALIS 项目及南京大学图书馆 CANAL 项目古籍子项目已取得阶段性成果。 3.2 研究进展 自从 20 世纪 80 年代以来,通过二十多年的古籍数字化建设,我国已经在项目建设和理论研究方面取得了实质性的进展,主要表现在:(1)确认了古籍数字化的标准程式和体系结构;(2)完成了数据库检索系
7、统、辅助性研究支持系统;(3)确定了书目数据库的标准和规范;(4)完善了汉字字符编码系统和规模录入技术;(5)实现了国际性的古籍资源合作与资源共享;(6)形成了以跨领域跨学科的专业研究队伍 5。古籍数字化处理流程与体系结构 6处理流程:体系结构:一个基本的古籍数字化系统至少包括两个子系统:数字化子系统和检索浏览子系统。 6信息工程学院信息组织与利用课程论文第 3 页 共 5 页4 古籍数字化存在的问题 古籍的数字化,在其发展和实现的过程中,有着自身和外在不可逾越,或者说是在一定时期内无法逾越的问题,主要表现在以下几个方面: 4.1 缺乏整体规划,重复建设严重 由于在古籍整理和数字化方面,我国乃
8、至世界范围内,缺乏一个整体的领导和规划,使得古籍数字化工作存在着重复建设的问题,如文渊阁四库全书的数字化就存在着上海人民出版社、迪志文化出版有限公司和武汉大学出版社的三个版本, 4.2 文献购置和设备购置成为制约古籍数字化的两大难题 图书馆的古籍文献状态分为“物理拥有” (拥有模式是指提供给读者的服务是通过物理存在概念上的本馆占有文献来实现的模式。 )和“获取” (获取模式是一种不占有物理馆藏而通过网络等技术为传播媒介,取得的能够满足读者(用户)需求的信息的模式。 )两种。 对于古籍文献资料较多的图书馆来说,虽他们拥有丰富的文献资料和文献处理经验,但在经费一定的情况下,因为经费过多用于古籍的采
9、购,无法购置必需的设备和软件,也缺乏足够的人力和相关的计算机技术人才,不少已经规划好的项目无法开展。而对于以获取方式取得古籍的图书馆来说,古籍电子出版物和网络获取成本太高,利润太少,投资大,市场小,且盗版严重。所以只有投入足够的经费,才能够解决设备、软件短缺问题,引进技术人员,正常开展古籍数字化工作。古籍数字化遇到的第一个重要问题是怎样处理异体字。今天所谓的一个字,古书中往往有几个不同的写法,有所谓繁体字、古体字、通假字等,例如古书有时把“嫦娥” 写成“常娥”,“然”写成“肰”, “法” 写成“灋”,这里姑且统称为异体字。把几个异体字归为同一个字,可以叫做给字归“ 位 ”。4.3 古籍整理技术
10、成果未得到充分利用 千百年来我国的古籍整理先人所形成的成果,尤其是二次文献成果(如 30年代的哈佛燕京学社的索引)在现今似已被遗弃,失去了其存在的价值。 4.4 检索技术急待完善 全文检索是古籍数字化的时期核心技术。全文数据库检索系统主要采用逐字标引形式,虽然可以满足读者查全率,但数以千计甚至万计的检索结果不可避免地影响检索效率。古籍检索技术中的关键性技术古汉语词典切分技术目前尚没有解决,影响古籍自动标引及名称主题检索及专有名词检索的实现。 4.5 数字化文件格式数量多,不统一 现在可列出的古籍文献格式不下 20 种,如 Exe、PDF、WDL、基于UNICODE、仓颉码、Big5 码或其他字
11、符集格式,HTML、XML 等等,如此众多的图书格式,由于不同的图书阅读器互相难以兼容,因而给读者带来了许多麻烦 ,没有一个读者会愿意在自己的电脑上安装七八个不同的阅读器去阅读图书 7。 文件格式标准的统一,是当前数字图书馆标准化建设重要目标,而我国古籍界反其道而行之,这为古籍资源共享制造了隐患。 4.6 人才的知识不全面性难以适应古籍数字化 古籍资源数字化是传统学术方法与现代科学技术的结合,它需要一批既懂得古籍整理又精通计算机技术的人才。现状却是古籍整理专业人员不懂电子技术,计算机技术人员缺少古籍知识。古籍资源数字化专门人才的培养亟待提上日程。 多数项目的开发属于单一人员或机构的个体行为,缺
12、乏有效的人力资源信息工程学院信息组织与利用课程论文第 4 页 共 5 页的组织与控制,这种状况需要通过旧有的古籍管理体制和人才培养体制改革加以改变。 5 古籍数字化未来发展的趋势 5.1 按数字图书馆模式对古籍数字化进行组织 所谓数字图书馆模式就是面向社会的开放性、标准化的技术服务与资源共享服务相结合的模式。数字化的古籍应该是以开放式的、分层次的、结构化的数据库来组织与揭示, 在进行数字化加工时应与现代图书遵循统一的标准规范,古籍的特殊性应该在统一标准规范的框架下进行细化。各机构之间或同一机构不同的数字化项目之间,可以通过某种形式的共享协议或技术,使所有的资源能够在同一平台上使用并互相调用。同
13、时,在大多数情况下,古籍与现代图书的知识库应该是可以共享的。 5.2 建立古籍整理的自动完成集成系统 古籍整理的自动完成集成系统,是以古籍整理文献理论和人工经验为基础建立的古籍整理集成系统,通过对文献内容及形式方面的专业化处理,结合现代计算机技术,实现古籍版本的自动校勘、自动断句标点、自动注释、自动翻译为白话文等数字化过程 9。 5.3 检索系统和支持系统研究将成为重点 检索系统将更多地利用传统“堪考灯”的成果资源及技术思想,为用户提供更多的名称主题及专题检索。研究支持功能以外,将在格式转换工具、版本转换工具、个性化输出出版等方面得到进一步拓展。 5.4 国家对数字化古籍资源进行整体规划,加大
14、资金投入力度 资源规划,包括建立国家基本古籍库目录(包括善本古籍和普通古籍) ,设计基本古籍库数字化建设的范围标准和技术标准,指导规范相关机构和企业的古籍数字化实践。在投资方面,采取国家、企业及国际合作开发的形式,在共享范围及层次上统一规划。 5.5 人才培养势在必行 专业人才将会通过调整高校相关专业人才培养目标和方案得到解决。近几年来,图书馆学专业、古典文献专业已经有意识地吸收计算机专业人才攻读硕士学位,招生规模也在逐渐扩大。 5.6 古籍数字化项目的国际性合作将是未来发展的目标 古籍数字化项目的国际性合作将是未来发展的目标,其范围和规模也将进一步扩大。这对解决古籍数字化的资金、技术瓶颈无疑
15、是有益的。 古籍数字化工作是一个系统性的工程,在互联网发展的今天,它同时也不仅仅是一个国内孤芳自赏的小项目,只有通过政府、各机构组织及企业、个人及国内、国际间的通力合作,传统古籍才能实现数字化,也才能使我国数千年来的宝贵文化遗产进一步发扬光大 10。 小结一个民族的文化精神可以说是一个民族生存下去的理由和灵魂,对传统的扬弃,决定着这个民族文化精神的统一性、传承性和创新性。而对传统文化进行扬弃的前提是首先要了解传统文化,入乎其内,方可出乎其外。通过数字化工程,我们对传统文化进行全面整理的同时,也是对传统文化的再学习。把古籍的内容数字化并使之与多种有效的检索、处理工具完美结合,奉献给读者知识宝库和
16、卓有成效的研究手段,使学者多出成果,快出成果,这才是古籍数字化的目标。但中文古籍数字化是一项长久、 艰巨而系统、 复杂的工程, 还需信息工程学院信息组织与利用课程论文第 5 页 共 5 页要我们不断地努力探索, 使中文古籍数字化的明天会更好, 进而使我们优秀的民族文化得到更好的继承和发扬。参考文献1 王桂平我国古籍数字化的现状及展望 2009(4):50512 段泽勇,李弘毅.古籍数字化的回顾与展望.图书馆理论与实践,2009(2) ,37-39 3 朱岩:谈古籍数字化(两岸三地古籍与地方文献2009 年 2 月)4 杨虎. 港台地区古籍数字化资源述略.电子出版,2010(8) ,8-11 5 李国新 .中国古籍数字化的进展与任务 2010 (5):64676王晓波: 大规模古籍电子化关键技术及实现 (2009 年 6 月)7 岳占伟.中文古籍数字化的成就与挑战.殷都学刊,2010(4) ,100-103 8 陈力.中文古籍数字化方法之检讨.国家图书馆学刊,2010(3) ,11-16 9 徐健,肖卓古籍数字化中的汉字录入与显示 2008(6):798210 张蓓.数学古籍数字化资源著录保存工具的研究和实现.现代图书情报技术,2011(8) ,56-60