1、甲骨文字形动态描述库及其字形生成技术研究,2012.11.4,安阳师范学院栗青生,甲骨文数字化工作简介,甲骨文缀合图像处理 (中美联合智能信息处理实验室),甲骨文编码字形描述库 (数字化甲骨文工程 技术研究中心),甲骨文考释图文资料库 (中文信息处理实验室),甲骨文数字化工作简介,主要内容,1、甲骨文数字化问题2、甲骨文字形动态描述库3、字形生成技术4、应用展望,1、甲骨文数字化问题,甲骨文数字化问题,多年来,在甲骨文数字化过程中,一直存在两个难以解决的问题:一是甲骨文难以定形,即甲骨文不像现代汉字,很难确定每一个甲骨文字的字形结构和类型;二是甲骨文字难以输入计算机 。由于过度“规范化”,其中
2、很多字形已经脱离了原始字形所表达的意义,有的还存在着部件结构和位置的错误,2、甲骨文字形动态描述库,例如:甲骨文合集中的第29529和27667片,如果不利用拼合区的两个残字来缀合,很难说明这两片原来是在一起的。,举 例,3、利用汉字字形描述库进行残字缀合和识别,字形描述库的由来,源于对我国古代文化的深入研究。三千多年前,商朝人就知道借助动物的骨头(龟甲)来计算(占卜)未来,到了周朝,演绎出了举世闻名的“易经”。龟甲本身不能计算未来,但通过人工在甲骨上进行凿洞和灼烧的方法使龟甲产生不同的纹理,可以判断未来的天气状况,我外星人的数学悖论惊人相似。数学悖论:悖论的故事说,外星人可以只在铁棍上划一道
3、痕,就可以记录全人类的知识信息怎么做到的呢?理论上可以用【无理数】来进行无限的数据存储。 划痕的长度比例是一个无理数:0.21873619876538173591873561835由于无理数的小数点后数位容量是无限的,故可以用于编码存储无限量的信息。,关于字形描述库,字形描述库是根据文字计算的需求,按照文字的表征特性,对文字特征进行可行性编辑和编码后形成的新的数据表,从而依据新的数据表对字形进行一系列计算的过程。目前,我们已经建立了甲骨文字形动态描述库、小篆字形动态描述库和部分现代汉字的动态描述库,和汉字字库的区别(以甲骨文为例),字库的形成及使用,字形描述库的形成及使用,甲骨文字形动态描述库
4、,是我们最早建立的动态描述库 使用这一描述库我们开发了甲骨文图文编辑系统,开发了甲骨文特征输入方法,并生成了刀体甲骨文,软件笔体甲骨文和曲线体甲骨文等数十种字形,,三体甲骨文,三体甲骨文,刀体,软笔体,曲线体,甲骨文字形描述库的建立,汉字字形描述库的建立规则: (1)汉字描述库由汉字向量组成。 (2)库中的每一个字向量由点集和关系组成,其中:字、点集和关系的表达式是: 字:= 其中: P(i)表示特征点元向量集,汉字笔画的起始、交叉、拐点等都可以成为特征点元向量 Q表示特征点元向量集之间的关系,特征点关系有两种,一是包含(B),二是连接(J)。 笔段:当且仅当P(i)非空,且特征点元向量之间是
5、包含关系. 笔元:当且仅当P(i)非空,且特征点元向量之间是连接关系。特别地,i=2时 笔元是特殊笔元,称孤立笔元。,举 例,如图所示的前两个笔元第一个笔元:特征点元向量集为 p1,p2 ,p3,p4,p5, B,有四个笔段。第二个笔元:特征点元向量集为p6, p7, p8, p9, p10, B有四个笔段。 ,笔元的逆向工程笔画的再生,由笔画抽象成笔元从而生成的字形描述库,在应用过程中可以通过笔画的再生动态生成汉字库、错字库和其它字形库。,甲骨文笔元的再生过程示意图,4、应用展望,使用字形描述库对甲骨文字进行建模从而实现甲骨文字形的缀合,残字字形建模系统,应用一: 甲骨文字形查询系统,输入残字的特征值查找相似甲骨文,进而查询对应甲骨文拓片。,错字的动态生成和建模,由笔画抽象成笔元从而生成的字形描述库,在应用过程中可以根据需要动态生成汉字库、错字库和其它字形库。,应用三 : 文字缀合游戏,谢谢!,请各位专家提出宝贵意见,