11 基于语料库的数字化辞书编纂平台.pps

上传人:创****公 文档编号:944119 上传时间:2018-11-09 格式:PPS 页数:59 大小:1.78MB
下载 相关 举报
11 基于语料库的数字化辞书编纂平台.pps_第1页
第1页 / 共59页
11 基于语料库的数字化辞书编纂平台.pps_第2页
第2页 / 共59页
11 基于语料库的数字化辞书编纂平台.pps_第3页
第3页 / 共59页
11 基于语料库的数字化辞书编纂平台.pps_第4页
第4页 / 共59页
11 基于语料库的数字化辞书编纂平台.pps_第5页
第5页 / 共59页
点击查看更多>>
资源描述

1、基于语料库的数字化辞书编纂平台靳光瑾 教育部语言文字应用研究所guangjin_http:/china-2004-07-13自然语言处理研讨会 复旦 上海 2004-07-12目标 :n 以大规模通用汉语语料库为基础,以数字化典范辞书为资源,利用语言信息处理计算机技术等,研制辞书的知识获取、自动生成、检查检测、审核评价等技术和集成化的辅助操作平台,突破传统的辞书编纂概念,建立一种新型的辞书编纂模式。 主要研究内容:数字化辞书生成系统;辞书雷同检查;规范检查和冲突检测技术;语料库在辞书编纂中的应用;语言处理技术应用于辞书编纂;探索辞书编纂的新模式;课题的扩展研究编纂平台的服务不只限于辞书,扩大编

2、纂对象至百科知识、教材等各种语言资源;扩展为自然语言信息处理综合平台;获取网络知识,实现远程实时处理;请看系统演示END资源平台n 资源平台是实现数字化辞书编纂的核心,主要包括:n 大规模语料库 生语料库(印刷、电子、网络) 标注语料库(切分标注、句法标注、语义标注) 分类语料库(领域、时段、用途)n 辞书数据库典范辞典(已完成 10部词典的嵌入) 领域辞典 其他辞典n 语言文字规范标准语言处理技术n 语言处理技术是数字化辞书编纂平台的支撑点。n 经过 20年的研究,语言处理技术虽然仍未整体突破,但是依靠现有的研究成果,根据特定的应用需求,在限定的应用领域内,语言处理技术可以满足应用需要。n 平台使用到的语言处理技术主要包括: 词语切分和词类标注 语法检查 检索(全文检索、关联检索) 信息抽取 文本分类 自动聚类 机器翻译 自动文摘辞书生成n 数字化辞书生成系统n 数字化辞书生成是利用现有辞书资源和大规模语料库资源,根据不同的用户对象、领域、辞书规模等信息,按照用户可定义的辞书模板,重组生成新的辞书框架,并在此基础上通过语料库更新原有的定义和例证,为编纂人员提供新辞书的基本内容。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 规章制度

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。