1、1基于 XML 的清人小学注疏五种词源研究 语料库的研制和应用摘要:采用 XML 技术开展古籍专书的标注和研究,是计算机辅助语言研究的一个新领域。利用该标注技术建成的清人小学注疏五种词源研究语料库,对清代五部小学注疏词源研究成果的诸多方面有着准确的反映,为研究者查询利用相关词源研究成果提供了极大便利。该语料库的建设能为应用 XML 技术处理古籍文本,提取相关语言学知识提供借鉴。 关键词:XML 词源学建模技术数字化一、引言 广雅疏证 说文解字注 尔雅义疏 方言笺疏 释名疏证补这五部清代小学注疏作品,不仅保存了历代探索字词源流丰富的诂训资料,而且能以“因声求义”之法疏解词义、补证理据、说解词源,
2、堪称传统词源研究的一座宝库。现代先进的信息技术,为我们利用这些古籍开展现代词源学研究提供了有力支撑。 我们利用 XML 标注技术1建成了清人小学注疏五种词源研究语料库,该语料库对清代五部小学注疏词源研究成果的诸多方面有着准确的反映。通过检索该语料库,研究者可以及时而清楚地了解:1.各家对某组语词是否同源的判断;2.各家论证某组语词同源关系所征引的文献证据和语音证据;3.各家研究古今字、通假字、异体字的情况。下文将对该语料库的建设作详细介绍。 二、电子文本的生产 2清人小学注疏五种的电子文本由吾师尉迟治平教授及门下弟子共同完成,笔者为主要参与者之一。 五种文本均系手工录入,所用底本之版本信息如下
3、: 广雅疏证(中华书局,王氏家刻本影印,1983 年版) 说文解字注(上海古籍出版社,经韵楼本影印,1981 年版) 尔雅义疏(上海古籍出版社,郝氏家刻本影印,1983 年版) 方言笺疏 (上海古籍出版社,仁和王文韶红蝠山房校刊本影印,1983 年版) 释名疏证补 (上海古籍出版社,光绪丙申刊本影印,1984 年版) 我们在制作以上电子文本的过程中,以“存真”为基本原则,尽量保持典籍原貌。 所有文本文件均采用支持超大字符集的“UTF-8 编码” 。 “UTF-8 编码”是国际标准超大字符集统一码“Unicode”的一种变长字符编码,又称“万国码” 。用在网页上,可以在同一页面显示简体中文、繁体
4、中文及其他语言,其显示范围远大于“ANSI” 。2在字体选择上,我们选择了“宋体-方正超大字符集”和“PMingLiU-ExtB”字体,以保证绝大多数古籍汉字的正确录入与显示。即便如此,清人小学注疏五种中依然有少数古文字、俗字、别字、冷僻字等无法正常录入和显示。针对此问题,我们对古籍文本在坚持“存真”的基本原则下,用既有的汉字字形来组字造字,其组字规则及示例如下: 表 1: 所用符号 字形结构说明 示例 3* 左右结构 明: 日*月 / 上下结构 皇: 白/王 包含结构 虎: 虍几 ? 增减部件 虔:虎-几+文 所有文本均系繁体字纯文本,能够进行字符串的全文检索,并能够供诸位学人根据自己需要作
5、进一步加工或标注。 三、清人小学注疏五种的数据建模 (一)构建树形结构图 清人小学注疏五种横跨雅学、说文学两大领域,性质不同,体例不一,具体文档结构更是纷繁复杂。现要集合五种注疏,综合利用,惟有求同存异,小而统之,粗分大类。 大致而言,五种注疏皆包含了序言、正文、附录三个部分。正文部分包含了大量我们需要分析的语言学属性。初步分析,五种注疏的正文部分都是篇目名和逐条小学注疏循环构成的一个整体。 由小学原文和清人注疏构成的单条小学注疏的内部情况虽复杂多样,但各个研究者都可以根据自己的研究目的,对其内容作出自己的分析。因我们的研究主要关乎词源研究,所以我们将单条小学注疏下面细分出一条条分析声义同源的
6、字词关系断语,字词关系断语下面又可以析分出数个声义同源的同源字。 基于词源学的研究初衷,我们画出了清人小学注疏五种文档的树形结构图,如图 1: 4图 1:文档结构树形图 (二)使用 XSD Schema 进行数据建模 1.设计标记名 鉴于我们需要提取分析的语言属性、语言知识都存储在清人小学注疏五种文档中的正文部分,为了文档结构层次的简洁、经济,我们拟直接以清人小学注疏五种正文作为我们的根元素,序言、附录等暂时被剥离,这不会影响我们工作的开展。另外,由于目前大量主流软件尚不支持汉字标记,我们便采用汉语拼音作为标记。对根元素及各节点子元素的标记分别定义如下: 清人小学注疏五种正文:qingrenx
7、iaoxuezhushu 篇目名: pianmuming 5疏证语段:zhushuquanwen 字词关系断语:ziciguanxiduanyu 同源字:tongyuanzi 2.编写扩展名为“xsd”的文件 Schema 是强大而灵活的数据建模工具。XML Schema 的 W3C 的推荐标准叫作 XSD,它可以准确地描述文档结构,即定义 XML 文件中允许哪些元素和属性、哪些元素和属性是必需的、哪些是可选的、允许的数据种类以及 XML 文件内容和结构的其他方面。使用 XSD 建模的成品是扩展名为“xsd”的源文件。3该文件代表了上面我们对清人小学注疏五种文档结构分析的成果,既能够链接到已有
8、的 XML 文档中,以验证其文档的有效性,也可以作为模式架构,添加到文本编辑器中,以实现 XML 标记的自动标注。其源代码本文暂略。 四、清人小学注疏五种的标注方法 (一)添加架构 Office2003 声称全面支持 XML,我们使用其组件 Word2003 中文版作为 XML 文档的编辑器。虽然目前还有大量的处理 XML 文档的专门软件,但它们远不及 Word2003 通用易得;特别是 Word2003 对超大字符集的支持功能在很多软件中还未实现,也促使我们选择它作为我们工作的软件平台。4 首先,我们用 Word2003 打开我们制作的清人小学注疏五种电子纯文本。然后在“工具”菜单上,单击“
9、模板和加载项” ,然后单击“XML 架构”选项卡。单击“添加架构” ,浏览并找到要添加到架构库中的 XML 架6构文件(xsd 文件) ,然后单击“打开” 。在“架构设置”对话框中,选择所需的选项,在“别名”框中键入架构的名称,最后点击“确定”完成。如图 2: 图 2:添加架构的方法 (二)半自动标注 添加架构后,Word2003 编辑框右边会出现如下“XML 结构”任务窗格。我们可以依次在清人小学注疏五种文档中选择相应元素,然后在“XML 结构”任务窗格的“选择一种元素并应用于当前的选定内容”框中单击一个元素,完成对该元素的标注,已标注的元素被图 3 所示红色光7带嵌套。标注中或完成标注后,
10、如文档结构不符合架构规则,将会在文档中以紫色波浪线标记出来,并在“XML 结构”任务窗格中报告此违规错误。整个标注界面如图 3 所示: 图 3:标注的方法 (三)生成 XML 文档 完成标注,且通过架构验证的文档可选择“文件”菜单上的“另存为”命令,保存为“qingrenxiaoxuezhushu.xml”文档。为保证其他 XML的软件也能阅读并处理我们保存为 XML 格式的文档数据,我们选择“仅保存数据”备选项。如图 4: 8图 4:生成 xml 文档 五、清人小学注疏五种的属性提取方法 (一)XML 与 XSL 的整合 XML 文档中事先标注过的元素和信息,都可利用 XML 的可扩展样式表
11、技术加以提取。现欲提取“qingrenxiaoxuezhushu.xml”文档中的“字词关系断语”和“同源字”两元素,可编写“tongyuanzi.xsl”文档,其源代码如下: 9清人小学注疏同源字研究资料 清人小学注疏同源字研究资料 var _userid = ;var _siteid =691;var _istoken = 1;var _model = Model03; WebPageSpeed =344; UrchinTrack(); 10) 已标注的“qingrenxiaoxuezhushu.xml”在链接上述“tongyuanzi.xsl”文档后,经 IE 浏览器解析,可直接转换成我们需要的词源研究资料,包括我们教学中常用的各种同族词、古今字、通假字、异体字等方面的宝贵材料。其转换结果如图 5:
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。