傣泐文-汉文互译有声电子词典.DOC

上传人:国*** 文档编号:3485071 上传时间:2019-05-31 格式:DOC 页数:10 大小:873.50KB
下载 相关 举报
傣泐文-汉文互译有声电子词典.DOC_第1页
第1页 / 共10页
傣泐文-汉文互译有声电子词典.DOC_第2页
第2页 / 共10页
傣泐文-汉文互译有声电子词典.DOC_第3页
第3页 / 共10页
傣泐文-汉文互译有声电子词典.DOC_第4页
第4页 / 共10页
傣泐文-汉文互译有声电子词典.DOC_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、2015 年第 xx 卷第 x 期 http:/www.c-s- 计算机系统应用基金项目:国家自然科学基金地区项目(编号 61363085);国家语委重大科研项目(编号 WT125-61) ;云南省教育厅科学研究基金重大专项(编号ZD2013013);云南民族大学高水平民族大学建设科研项目(编号 ZZZC1501-JF12002);云南民族大学研究生创新基金重点项目(编号 2015YJCXZ17)收稿时间:2015-11-06 ;收到修改稿时间:2015-11-21 System Construction 系统建设 1傣 泐 文 -汉 文 互 译 有 声 电 子 词 典胡刚 1,2,王嘉梅 1

2、,2,李炳泽 1,林睿 1,2,希利补发 1,31(云南民族大学 云南省高校少数民族语言文字信息化处理工程研究中心,昆明 650500)2(云南民族大学 电气信息工程学院,昆明 650500)3(云南民族大学 民族文化学院,昆明 650500)摘 要:软件是基于 Visual C+ 6.0 和 Access 2003 工具来完成的,在 Unicode 字符集模式下进行软件设计,解决当前民族文字软件开发时的系统使用兼容性以及字符的输出乱码等问题。本开发模式使用简单、操作稳定、接口灵活,在便于用户对词汇和语音数据库进行统一处理(备份、打印)的同时,也为其它民族文字翻译软件的开发提供了初期技术指导。

3、目前面向傣族地区的翻译辅助工具还尚未推出,“傣泐文-汉文互译有声电子词典”是傣文信息化领域的一个重要“应用创新”成果,是开展少数民族语言文化信息元表示与提取研究的基础支撑,其作用主要是负责傣文的查询、翻译、朗读等工作。傣汉互译电子词典设计实现了傣汉对照互译、傣语真人朗读、傣语音标显示等常用功能,同时还支持对词库进行添加、修改、删除自定义操作,实现了良好的人机交互功能。关键词:傣泐文;西双版纳;电子词典;傣汉互译;UnicodeDaile Wen - Chinese Translation Audible Electronic Dictionary HU Gang1,2,WANG Jia-mei

4、1,2,LI Bing-ze1,LIN Rui1,2,XI LI Bu-fa 1,31(Yunnan Province for Minority Language Information Processing Engineering Research Center, Yunnan MinZu University, Kunming 650500, China)2(School of electrical Xi Shuang Ban Na ; electronic dictionary ; Dai Chinese translation ; Unicode随着傣文信息处理领域的拓宽和进步,规范傣

5、文获得了更大的普及和发展,也使更多的人开始学习和研究傣文。传统的傣文学习辅助工具大多是书籍,在电脑和网络上进行学习的辅助工具很少。目前在西双版纳傣族自治州内,汉文和傣文作为官方文字,在各行各业中广泛使用。随着政府上网工程的实施和电子商务的崛起,对汉傣互译翻译的需求量也急剧增加。但由于各方面信息的大量增加,新词术语的不断涌现,传统的人工翻译己不能满足广大人民群众日益增加的获取信息的需求。各级政府部门、企事业单位的翻译人员和广大群众普遍希望研制出一个智能化的机器翻译系统或能够在计算机上进行实时翻译的双语电子词典计算机系统应用 http:/www.c-s- 2015 年第 xx 卷第 x 期Syst

6、em Construction 系统建设 2。同国内电子词典发展水平相比,汉傣互译电子词典研究起步较晚。近些年,傣文相关新闻网站的不断面世,及傣文输入法的研究与开发,迎来了傣语信息化发展的新纪元。由于傣文机器翻译研究才刚刚起步,在短时间内研制出不同层次、不同领域的用户都满意的全文翻译软件难度太大。但一部收词量较大,译文较为规范的在线词典至少在一个阶段能够解决广大用户浏览网页、在线写作时遇到的困难。所以无论从用户群看,还是从开发现状看,最现实的做法还是解决目前急需的翻译软件,即汉傣互译翻译软件和辅助发音软件。傣文最大的特点在于,对于同一字会因不同地域,文字读音、形体和结构而差别巨大。目前,傣文由

7、于使用地区的不同,可分为傣泐文(西双版纳老傣文) 、傣纳文(德宏老傣文) 、傣绷文和金平傣文(又称白傣文)4 种。为便于普及和研究,本课题立足于西双版纳州地区开展调研,把西双版纳老傣文-傣泐文作为本次傣文研究对象。傣文信息化处理其技术难点是在计算机中如何实现傣文查询、翻译、发音等问题,那么电子词典的开发和应用将是解决该问题的关键。1 理论价值 云南是一个多民族多语言的省份,本语言软件开发虽是一个个案,随着对新发现语和濒危语的研究走向全面和深入,其开拓价值、示范价值、理论价值值得重视。 傣文信息化处理方案可作为其他语种信息元表示的理论指导,尤其对词汇和语音数据库的构建(如:字符编码、内码转换)等

8、相关理论的技术积累,是在计算机上收集、存储、显示、打印语言文字的基础性工作,其相关操作至关重要。 软件开发基于 VC6.0 来完成,在 Unicode 字符集模式下进行软件设计,这样便于所开发的软件能方便地移植到其它文字电子词典的制作,增强了本设计的移植性,这对其它同类民族语言的电子词典初期开发提供了技术指导。 在电子词典词库建设方面并没有统一的格式要求,XML、纯文本、Access 数据库等是目前电子词典较为常用的格式。设计采用 Access数据表制作词库,考虑 Unicode 字符的显示问题,选择 Access2000 或以上版本,解决了 VC6.0 与 Access 数据库兼容性问题。

9、VC 6.0 开发环境下,默认的字符集是 MBCS多字节字符集,而目前的傣文字符输入软件是基于Unicode 字符集设计的,这将导致输出的傣文字符无法正常显示的问题,因此,本软件在 Unicode 字符模式下进行设计,解决软件界面输出 Unicode 字符时显示乱码的问题。 目前用于傣语翻译系统的文字处理软件还尚未推出,因此 Windows 操作平台下的傣汉互译电子词典研究是一项应用性创新工作,这一成果会促进了傣汉机器翻译系统的研究。 相关领域的傣文编码标准还没有明确制订,通过本软件的首次开发对傣文电子词典的改进和优化提供了后期依据;对如何制订傣文电子词典的的现行技术指标具有一定的参考价值;对

10、如何建立科学的傣文电子词典评价体系有着积极的意义2 应用价值 可作高校、科研院所语言研究的教学和参考辅助工具,而且也为傣汉互译翻译人员及相关用户提供了方便快捷的电子助手。如教学个案,语言接触个案,傣语支系研究,语言比较研究等。 可作西双版纳州、德宏州、红河州等地区民族文化抢救保护部门和工作者的认读和打印工具。相关典籍的搜集、理解、传承是民族文化抢救保护工作的重要议项,进展不大的原因之一是文字识别和表示不全面,在传统的传播媒介中生疏文字容易被丢失或遗忘。 可供傣族地区旅游推广使用,西双版纳自治州是傣族聚居地,有丰富的民族文化旅游资源。新闻媒介要主推民族文化特点,尤其对主打旅游牌的傣族地区,可用于

11、制作大量的双语宣传海报和文化介绍片。如此,不仅可以带来财政创收,也能吸引更多双语人才加入到具有发展潜力的民族语言学习中。 可辅助民族语言新闻媒体推广,我国跨境民族居多,这些民族周边国家同根同源,世代友好,有着相同或者相近的文化特征和语言文字,民族语言的新闻媒介是他们了解中国的重要窗口。将国内新闻信息翻译成傣文,利用傣语新闻媒介的独特优势传播民族文化,这比传统中文显得更有亲和力。2015 年第 xx 卷第 x 期 http:/www.c-s- 计算机系统应用System Construction 系统建设 9 随着电子产品和多媒体教学的普及,类似中文电子词典,傣汉互译电子词典或将成为傣族日常使用

12、的文字处理软件,本课题“傣汉互译电子词典”软件产品,可在傣文古籍整理、文献出版、学术研究、教材编译和建设及学校双语教育等中应用,还可制作各级政府单位部门及学校名称、门牌、政府公文、信封等傣汉互译双文书写等。3 研究概括3.1 设计目标本软件拥有傣汉对照词汇检索功能,可以傣汉对照词汇互相查询和检索,支持傣语词汇真人发音,自动显示傣语国际音标,附带文本分割功能,全面支持Unicode傣文系统,可以查看任意文字本的内码,还词库的添加、修改、删除等操作等功能。本软件系统遵循人性化设计,面向实际,贴近用户,美观大方,功能众多,性能稳定,性价比高。开发推广的面向用户为学习傣文的学生,学习汉语的少数民族人士

13、,民族语言文字工作者,汉傣翻译工作者,傣文电脑打字学习者,民族文字信息处理工作者等服务。3.2 环境配置1.开发环境:编程语言:Visual C+ 6.0;数据库设计:Access20032.运行环境操作系统:Windows 平台,适用于Windows2000 以上;硬件要求:CPU,奔腾 2.SGHZ及以上,内存,256MB 及以上,显示卡,标准VGA256 色显示模式以上。3.3 同类比较目前,国内对傣汉互译电子词典的研究和开发尚处于应用性创新阶段,因而相关产品还未面市或推广。为便于分析本款软件的的功能实现,课题组只能选取两款同类功能相似的彝文软件作为对比参考 1,如表 1-1所示。第一款

14、软件为“中小学彝汉对照电子词典” ,该产品是依托四川省教育厅-重点项目的软件成果,由西南民族大学民族语言文字信息处理研究所于 2005年研发,主要功能有词汇查询(精确查询)和词汇修改,软件的使用界面如图 3-1所示。第二款软件为“多功能彝语电子词典” ,该软件为硕士毕业论文的软件作品,由电子科技大学软件工程专业学生于 2010年开发。在功能实现方面,开发者对词汇查询模块新增模糊查询,用户查询词条更加便捷;对词汇编辑模块新增词汇增加、词汇删除,方便用户及时更新词条(查缺补漏和准确修正) ;对彝文支持国际音标显示和语音朗读辅助。软件的使用界面如图 3-2所示。本款软件为“汉傣互译电子词典” ,该产

15、品是依托国家语委-委托项目的软件成果,由云南省少数民族语言文字信息化处理工程研究中心开发完成,主要功能有词汇查询(精确查询)和词汇编辑,查询结果还支持傣文音标显示和傣语真人朗读。总体而言,对比其他民族语言文字查询翻译字典,该软件的开发基本满足了日常使用需要。软件的使用界面如图 3-3所示。图 3-1 中小学彝汉对照电子词典查询界面图 3-2 多功能彝语电子词典查询界面计算机系统应用 http:/www.c-s- 2015 年第 xx 卷第 x 期System Construction 系统建设 4图 3-3 汉傣互译电子词典查询界面表 1-1三款查询软件功能参数对比查询字典类型 中小学彝汉对照

16、电子词典 多功能彝语电子词典 汉傣互译电子词典词汇查询 精确查询 模糊查询/精确查询 精确查询查询类别 中文彝文 中文彝文 中文傣文词汇编辑 词汇增加 词汇修改、增加、删除 词汇修改、增加、删除真人朗读 无 真人朗读 真人朗读音标标注 无 国家音标 国际音标词汇数据 无 查询、打印 无内码转换 无 YiWin 编码Unicode 编码Unicode 编码界面定制 无 颜色、字体选择 无软件功能输入法模块 否 内嵌集成 配套使用开发语言 Visual C C+和 Java 混合编程 Visual C+数据格式 纯文本 XML 数据表 Access 数据表设计方式数据库 Access2000 Ac

17、cess2003 Access20034 研究概括4.1 查询检索一般互译词典开发者会在软件设计中为用户提供两种词汇检索方式:精确查询和模糊查询。但由于目前收集的傣汉词汇库和傣语录音库还缺乏完善,仅支持日常生活中常用的 4386个傣语词汇检索。因而现设计中加入模糊查询意义并不大,而且还会为用户带来使用不便,课题组一致认同,待词库数量扩充到足够数量后,再另行补充,软件运行界面如图 4-1所示。图 4-1 傣汉互译电子词典运行界面(1)词汇查询:该款软件仅支持精确查询,用户可以根据实际需要,在输入框内键入傣文或汉文,按键盘上 Enter快捷键或者点击界面上的 按钮来查询,程序会自动识别输入文字的编

18、码类型并自动显示查询结果。在傣汉对应词汇的互相查询中,精确查2015 年第 xx 卷第 x 期 http:/www.c-s- 计算机系统应用System Construction 系统建设 9找只能检索出与用户输入的查询词对应的词汇数据。如用户输入汉语“别人”一词,即可检索出对应的傣语词汇“”和音标“pn” 。反之,输入“”傣语词汇,也可以查询出对应的汉语词汇“别人” ,这就是精确查询,如图 4-2所示。(2)发音辅助:傣语真人朗读是本软件的一大特色,但是该功能目前只是一个尝试。程序可以朗读用户输入的傣语查询词对应傣语词汇,这一功能极大的帮助傣语(文)的学习者,使傣文不仅能看得到且能听得到。使

19、用方法为当前输入框中的右边点击小喇叭 按钮均可朗读傣文,点几下就读几遍,如图 4-2所示图 4-2 傣汉互译电子词典查询及朗读演示(3)音标标注:软件可以用来查询傣语对应的音标,而且音标的标注采用了国际标准。国际音标标注和真人发音辅助,这极大的解决了傣语初学者在学习过程中面临的“会识却不会读的困境。用户在使用过程中,由于音标标注是用一个单独的线程类来管理的,因此会和所查询出来的数据在界面上同步显示,而不是等到词汇显示完成后音标才显示,如图 4-3所示图 4-3 傣汉互译电子词典音标演示4.2 词汇更新(1)词汇增加:采集并整理词库和语音是一个庞大而又复杂的工程,因而本软件目前能提供的词汇有限,

20、只是基本覆盖了傣汉常用词汇,只能满足一般的学习和工作活动,词汇量不够大是本软件的一个遗憾。鉴于此,本软件本着开放性的设计,增加了可扩充性,允许用户增加和补充自己的专业词汇,补充数量不限。但是增加时只能增加系统自带数据库中没有的词汇,系统会判断用户增加的词汇是否己经存在,若存在则不能增加,只有系统中不存在的词汇才能增加成功,这样做是为了维护数据的整体性、统一性和安全性。当用户增加了自己的专业词汇后,就可以象系统其他词汇一样来使用和查询,而且也可以对其进行编辑操作修改和删作。在以后的正式版本和升级版本中我们将会继续扩充系统的词汇量,争取做到大、广、全。但是当增加了个人专业词汇后,重新安装本软件前要

21、先备份数据库,才能继续使用补充的数据,如图 4-4所示。图 4-4 词汇增加示意图(2)词汇修改:课题组在对傣语文字的调研中,难免会存在疏漏和错误。因而起初建傣汉词条库时,参考了部分语言专家的意见,毕竟民族语言文字应用面窄,普通翻译都是允许存在误差的,不可能一一准确对应,这就允许傣语专业人士后期对其修正校对。本软件开放了词库接口,用户若对当前傣汉词的查询结果存在异议,可点击“开放型词库建设”菜单中的“修改”项进入到词汇编辑窗口。用户可选择“翻译”和“音标”对应编辑的行,分别进行补充翻译和音标修正。修改后点击“确定”选项,即可在修改表格和查询界面中查看到修改后的结果,如图 4-5所示计算机系统应

22、用 http:/www.c-s- 2015 年第 xx 卷第 x 期System Construction 系统建设 6。图 4-5 词汇修改示意图(3)词汇删除:用户若要删除当前查询词条,具体操作方法可点击“开放型词库建设”菜单中的“删除”选项,系统会弹出“删除确认”窗口提示,最终由用户选择确定或者取消。注意,数据删除后是不能恢复的,所以删除时务必谨慎操作。课题组后期会更加注重软件的完整性和安全性,并对软件的功能进行升级,开放使用权限和管理权限,并定期对软件进行更新发布,如图 4-6所示。图 4-6 词汇删除示意图4.3 词汇数据当增加了自己的补充词汇之后,应该经常备份系统的词汇数据库。如果

23、在安装时是将本软件安装在系统盘下,那么当电脑因为其他原因需要重装操作系统时就会把本软件删除掉,再安装本软件时之前的补充数据将消失,所以如果将本软件安装在了系统盘的话,在补充了词汇后应该备份系统数据库。这样即使重新安装操作系统后也可以导入补充数据,可以正常使用而不必担心补充数据的丢失。为了方便管理和打印查询数据的需要,软件提供了查询数据打印功能。只要用户电脑安装或联网了打印机就可以将查询结果打印出来,更加方便了用户的进一步使用,如图 4-7所示。图 4-7 数据打印示意图5 语音库构建语音数据库是词典发音辅助模块的重要组成部分,其数据库质量将直接影响到辅助发音的真实效果。为了更好地进行原音录音,

24、本课题组用先进的数字化技术设计开发了傣语语音录音软件系统,其设计原理及流程不在此详述。5.1 录音系统傣语为东亚语系之一,是傣泰民族使用的语言。全球有 6600万左右的人口使用傣语,中国云南有 120多万人口使用傣语。而其中,大泰方言(德宏、保山、临沧方言) 、兰纳方言(西双版纳、普洱方言)是中国境内最主要的两种傣语方言。课题组虽只研究西双版纳老傣文-傣泐文,但其音系分支相当复杂,部分语种独立音位接近六十个,且有大量复辅音(甚至多种四合复辅音) ,多数属声调语言,是人类记忆的奇迹和文化宝藏。傣语支语音在傣泰语族内独具特色,而使用这些语言的人数越来越少,很多语种已濒临灭亡,急需拯救。故傣语的录入

25、将是该系统实现的重要障碍。我们采用傣语文字和国际音标作为傣语录入的主要依据 2,在参考相关领域发展现状、发展动态以及本课题组前期工作的基础上,设计开发出傣语原音录音系统软件一套。系统界面如图 5-1所示2015 年第 xx 卷第 x 期 http:/www.c-s- 计算机系统应用System Construction 系统建设 9图 5-1 傣语语音录音系统界面5.2 原音录制收集资料完了以后,接下来就是对傣语语进行原音录制。原音录音的目的,即:为了得到科学的、准确的、可靠的原始语音文件。对录音人员的筛选及录音的环境的选择提出了高的要求,也就是说需要专业的人员进行傣语的原音录音,安静的录音室

26、和可播放的存储工具。5.3 录音人员录音,首先考虑的应该是准确性与可靠性的问题,其次是通用性的问题。在课题组的主要成员岩温罕(博士在读,傣族,对傣语进行了多年研究,目前在民族文化学院主要承担西双版纳傣语(新、老傣文)教学工作)老师的支持下,邀请到本科专业是傣语的学生来录音。该学生的家乡在西双版纳州景洪地区,其方言属于西双版纳老傣文-傣泐文分支,且祖辈都是傣族出身,能够保证傣语录制的原汁原味。目前西双版纳片区的所有傣语的原音录入均由其完成的,我们的录音发音与所推广的发音达到一致性,在语音库的建立过程中融入地道、纯正、浓厚的傣语语音和语言文化。5.4 录音特点在安静的实验室里完成了整个原音录制过程

27、,最后通过对话质的筛选,留下了完整的傣语语音文件,将其存储为后缀为.WAV 的格式。在 Windows 平台下,WAV 是被音频软件支持得最好的音频格式。由于本身可达到较高的音质要求,因此,WAV 也是音频录制的首选格式,适合保存原音素材,缺点就是占用存储空间大。目前电脑的参数配置一般都比价高,还能够满足 WAV 格式的应用开发所需的存储容量和运行速度。但手机端应用 APP 制作一般都有大小要求,WAV 格式就不一定适合。好的是,WAV 能够被作为了一种中介的格式,常常使用在其他编码的相互转换之中,这就极大的方便了开发者的需求。至此,课题组建立了傣语语音库,这将为后面的傣汉互译词典加入发音辅助

28、模块的加入做准备。5.5 成果展示为便于录音分工和查询分析,我们参考傣文词汇表将傣语录音库分天文、地理类;时间、方位类;动物类;植物类;身体、部位类;房屋、建筑类;服饰、织物类;工具、用品类;日用品类;文化、娱乐类;饮食类;动作、行为类;性质、状态类;人物、称谓类,数量类等 14大类 3,共 4386个词汇音频。图 5-2 傣文词汇分类表傣文词汇分类表如图 5-2所示,傣语音频录制后的成果如图 5-3所示。图 5-3 傣语音频录制成果展示6 数据库建设6.1 数据库原理通俗地说数据库就是储存数据的地方。数据库是数据管理的最新技术,是计算机科学的重要分支,也计算机系统应用 http:/www.c

29、-s- 2015 年第 xx 卷第 x 期System Construction 系统建设 8是计算机领域发展最快的学科之一。数据库是支撑民族语言研究的信息化技术支撑,基于这种考虑,课题组目前正在建设大中规模的傣语语料库、语音库等基于数据库的信息系统。6.2 数据库选择关系数据库是目前各类数据库中最重要、最流行的数据库,它应用数学方法来处理数据库数据,是目前使用最广泛的数据库系统,是存储在计算机上的、可共享的、有组织的关系型数据的集合。数据库中的数据可以是文字、图象、声音等。现在流行的关系型数据库有 IBM DB2、Oracle、SQL Server、 SyBase、Informix 、MyS

30、QL、Access 等 4。本系统采用了 Access 数据库和 XML 可扩展标记语言两种来组织存放程序运行中所用到的数据信息。在本软件中用了 JDOM 来解析 XML 格式文件。6.3 词汇数据库本软件采用了 Microsoft 桌面关系数据库Access2003 和 XML通用数据格式,分别采用了 JDBC和 JDOM 来存取数据。有 2个数据表 1。第一个表是系统词汇数据表,该表收录了西双版纳州地区日常使用中的傣汉对应词汇 4386条,此表用户可进行修改、增加和删除词汇用,词汇的查询(精确查找)就从该表中来检索的。第二个表是傣语音标表,用 XML来描述和存储,它储存了 4386个傣文字

31、的对应音标,该文件在程序初始化时就被读取并且封装进一个哈希表数据结构中来常驻内存,在数据的检索中是用一个线程来读取该哈希表并且在界面上显示音标,用线程是可以减少系统等待时间,加快查询速度。如音标和傣文字的对应关系就用了 XML格式存储,如下所示:lbit2bix6.4 语音数据库本文中的语音数据库指的是将傣语的语音语调和语音片断等信息用计算机技术手段记录和录制下来,并且将其按一定关系原理存储在数据库中,作为日后各种相关开发的基础。所以语音数据库的建立只是基础性的工作,光有语音数据库我们还不能做什么,语音数据库的目的是在实际中运用,只有和程序结合起来才能真正发挥其强大的威力。因为语音数据库是机械

32、死板的,而程序是人为编制的、灵活的,我们要让程序来自动调用、分析、处理、识别、加工和控制语音数据库来达到我们的应用目的。语音数据库的运作过程是这样的将傣语的语音片段按一定的关系蕴织存储起来,当程序中用户需要朗读的时候则将该语音片段取出来交给媒体播放器播放。这样就实现了软件中朗读傣文的目的。声音片断文件解析成二进制码后也可以直接存储在数据库中,但是那样会增大数据库的体积,所以在数据库中我们只储存路径,具体的声音文件则存储在另外的文件包中。7 总体模块设计7.1 模块构成本研究的目标是在 Windows环境下实现具有汉语和傣语词汇相互查询功能的电子词典。词典包括词汇查询、词库维护、即时互译等词典专

33、有功能。傣汉互译电子词典的总体设计思想首先是词汇和语音数据库,对于一部电子词典来说其后台的数据库是必要的。因此软件的核心功能模块是查询模块,主要是依托傣-汉词库的建立来完成的 5。电子词典包含的主要功能有,词汇查询:查询汉文词、傣文词汇;词库维护:添加词条、修改词条、删除词条;查询辅助:真人发音、国际音标。功能组成模块如图 7-1所示。2015 年第 xx 卷第 x 期 http:/www.c-s- 计算机系统应用System Construction 系统建设 9傣 汉 互 译 电 子 词 典查询模块显示模块维护模块帮助模块傣文查询汉文查询词汇修改词汇删除词汇增加国际音标真人发音图 7-1

34、傣汉互译电子词典功能模块图7.2 词库建立通常,电子词典是双语的,一般会考虑分别设计汉一傣词库和傣-汉词库 6。但该电子词典目前包含的词汇量还比较少,对用户只提供精确查询,那么对应的后台查询据库是汉傣词汇库和傣语语音库。录入傣汉词条时,傣语和汉语一一对应的,以汉文或傣文为关键字建立词库最终的效果是一样的。为方便录入词条,课题组选择以汉文为关键词录入汉一傣词库,用于查询汉文和傣文时使用。在数据库的建立过程中考虑到该电子词典只是词汇的翻译,而且初期阶段的词汇量不太大,所以采用来建立数据库完全可以达到软件对数据库的要求。本数据库包含一张词汇表,下面介绍汉-傣词库的结构设计,如表 7-1所示。表 7-

35、1 汉- 傣词库的各个字段属性字段名称 数据类型 字段大小 必须字段 说明汉文 文本 255 是 不允许空字符傣文 文本 255 是 不允许空字符在录入过程中,傣文和汉文是一一对应的关系,因此汉一傣词库以汉文或傣文字段为索引字段。课题组录入示例如下(以汉文为关键词):汉文:别人 傣文: 国际音标:pn其实另一种录入方式(以傣文为关键词):傣文: 汉文:别人 国际音标:pn无论哪种操作,都首先需要操作系统支持傣文显示,并且借助额外傣文输入法的辅助,将傣文键入到数据库表中。7.3 主要模块(1)查询模块:查询模块是电子词典的重要组成部分。本词典将对用户输入的汉文词和傣文词汇进行精确查询。(2)显示

36、模块:傣文有两种傣文编码,操作系统需要支持编码显示,不然需要开发者另外制作编码字库,并从外部导入到系统字库(C:WindowsFonts)中,否则会引起乱码。而 Window 98 以上的操作系统都是默认支持傣泐文显示的,在内置字库包含傣泐文字体,系统预装自动支持 7。预装字库如图 7-2所示。图 7-2 预装傣文字库支持(3)维护模块:由于纸版汉傣词汇在大量的手工录入工作中可能出现某些纰漏。因此“傣汉互译电子词典中设计词库维护功能是必要的。维护模块包括添加新词条、修改词条中的错误的信息和删除词条等功能。8 总结目前用于翻译系统的傣文文字处理软件还尚未推出,因此 Windows操作平台下的傣汉

37、互译电子词典研究是一项应用创新性的工作。课题组通过自己设计的傣汉互译电子词典,基本实现了本软件系统拥有傣汉对照词汇检索功能,词汇自定义,支持傣语词汇真人发音,自动显示傣语音标,附计算机系统应用 http:/www.c-s- 2015 年第 xx 卷第 x 期System Construction 系统建设 10带文本分割功能,,还有数据备份、打印等功能。本软件系统遵循人性化设计,面向实际,贴近用户,性能稳定,性价比高。由于民族语言文字的特殊性,相关词典的编纂、管理与完善是一项相当庞大、复杂,并且时间周期长的工作。课题组虽然设计出了傣汉互译电子词典的,也基本实现了傣汉对照词汇检索功能,但基于时间

38、较短和水平有限,所进行的工作还远远不够,还有待后期继续改进。例如,在傣汉互译电子词典管理维护工具的设计中,还没有解决词典的词汇的模糊查询和实时更新等问题。因此,课题组在今后的工作中会继续进行相关的研究,完善目前课题开展中所存在的缺陷和不足,并将致力于傣汉电子词典等领域的新课题研究与开发。参考文献1 郭霞. 多功能汉彝电子词典的软件设计与实现D.电子科技大学,2010.2 尼玛扎西. 汉藏在线翻译多媒体电子词典设计研究与实现D.西藏大学,2008.3 才藏太,华却才让. 藏语语料库加工和处理用的藏文切分词典的建立与设计A. 中国中文信息学会、中国科学院软件研究所、青海师范大学、五省区藏族教育协作领导小组办公室.第十届全国少数民族语言文字信息处理学术研讨会论文集C.中国中文信息学会、中国科学院软件研究所、青海师范大学、五省区藏族教育协作领导小组办公室:,2005.4 朱晨. 电子词典中文件系统的设计与实现D.电子科技大学,2013.5 扎丽玛. 英汉蒙电子词典计算机查询软件的设计与实现D.内蒙古师范大学,2006.6 古丽孜亚阿布都吉力. 汉哈萨克双语电子词典的设计与实现D.厦门大学,20137 宁威林,王嘉梅,王辉,明志远. 彝文输入法形码编码的研究与实现J.云南民族大学学报( 自然科版), 2011,04:310-312.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 医药卫生

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。