1、基于笔端形状相似性的汉字字体识别,王晓1,2,吕肖庆1,2,汤帜1,21 北京大学计算机科学技术研究所2 数字出版技术国家重点实验室(北大方正集团有限公司)E-mail:L,1,背景及研究现状笔端提取笔端形状描述字体相似性度量实验与分析总结,提纲,2,背景及研究现状,字体识别文档电子化光学字符识别(OCR)版面分析、理解、恢复新需求厂商希望保护版权设计师和用户“按形找字”大规模集合上的字体识别,3,背景及研究现状,4,背景及研究现状,字体识别方法的分类文本相关 / 文本无关基于文本块 / 基于单字,5,基于文本块Gabor变换笔画分布基于单字符小波变换笔画模板特征点,字体与笔端相似性,6,背景
2、及研究现状,背景及研究现状,字体识别流程,7,背景及研究现状笔端提取笔端形状描述字体相似性度量实验与分析总结,提纲,8,笔端提取,笔端笔画的起始与收尾占笔画一定比例点笔画和某些转折如何精确计算笔画起始与收尾截断位置截断方式,9,笔端提取,笔画模板 (前人工作)希望笔端,10,与形状相关的阈值,笔端提取,笔端与骨架的关系笔端起始点骨架端点笔端截断点骨架分叉点,11,借助骨架会有什么问题?,笔端提取,12,分叉与毛刺问题,笔端提取,13,笔端提取,笔画长宽比问题,14,笔端提取,动态计算长宽比(Stroke Aspect Ratio,SAR),15,笔端提取,取SAR=1时的截取效果,16,背景及
3、研究现状笔端提取笔端形状描述字体相似性度量实验与分析总结,提纲,17,笔端形状描述,笔端描述子的构造基于基于多尺度曲率直方图的傅里叶描述子,18,笔端形状描述,19,背景及研究现状笔端提取笔端形状描述字体相似性度量实验与分析总结,提纲,20,字体相似性度量,采用欧式距离计算特征相似度采用支持向量机(SVM)进行训练与识别,21,背景及研究现状笔端提取笔端形状描述字体相似性度量实验与分析总结,提纲,22,实验与分析,常用字体数据集宋体、仿宋、黑体、楷体、隶书正规、粗体、倾斜、粗斜字号:18扫描分辨率:1200dpi参数设置sar: 1SDST5个尺度,每个尺度100维,23,实验与分析,常用字体集合测试结果五种方式划分测试集,24,实验与分析,扩展字体数据集23种字体字号:初号保存清晰度:600dpi参数设置sar: 1SDST5个尺度,每个尺度100维特征笔端数量:50,25,实验与分析,26,整体识别率88.49%,总结与展望,字体特征较少的特征笔端表示字体与人们视觉感知接近的笔端结构较大规模字体集合有较好的识别效果未来研究方向小字号的轮廓获取加入笔画宽度的分布,27,28,谢谢!Email:L,