1、基于语料库的数字化辞书编纂平台靳光瑾 教育部语言文字应用研究所guangjin_http:/china-2004-07-13自然语言处理研讨会 复旦 上海 2004-07-12目标 :n 以大规模通用汉语语料库为基础,以数字化典范辞书为资源,利用语言信息处理计算机技术等,研制辞书的知识获取、自动生成、检查检测、审核评价等技术和集成化的辅助操作平台,突破传统的辞书编纂概念,建立一种新型的辞书编纂模式。 主要研究内容:数字化辞书生成系统;辞书雷同检查;规范检查和冲突检测技术;语料库在辞书编纂中的应用;语言处理技术应用于辞书编纂;探索辞书编纂的新模式;课题的扩展研究编纂平台的服务不只限于辞书,扩大编
2、纂对象至百科知识、教材等各种语言资源;扩展为自然语言信息处理综合平台;获取网络知识,实现远程实时处理;请看系统演示END资源平台n 资源平台是实现数字化辞书编纂的核心,主要包括:n 大规模语料库 生语料库(印刷、电子、网络) 标注语料库(切分标注、句法标注、语义标注) 分类语料库(领域、时段、用途)n 辞书数据库典范辞典(已完成 10部词典的嵌入) 领域辞典 其他辞典n 语言文字规范标准语言处理技术n 语言处理技术是数字化辞书编纂平台的支撑点。n 经过 20年的研究,语言处理技术虽然仍未整体突破,但是依靠现有的研究成果,根据特定的应用需求,在限定的应用领域内,语言处理技术可以满足应用需要。n 平台使用到的语言处理技术主要包括: 词语切分和词类标注 语法检查 检索(全文检索、关联检索) 信息抽取 文本分类 自动聚类 机器翻译 自动文摘辞书生成n 数字化辞书生成系统n 数字化辞书生成是利用现有辞书资源和大规模语料库资源,根据不同的用户对象、领域、辞书规模等信息,按照用户可定义的辞书模板,重组生成新的辞书框架,并在此基础上通过语料库更新原有的定义和例证,为编纂人员提供新辞书的基本内容。