基于语料库的工作.ppt

上传人:da****u 文档编号:1065187 上传时间:2018-11-28 格式:PPT 页数:32 大小:173.50KB
下载 相关 举报
基于语料库的工作.ppt_第1页
第1页 / 共32页
基于语料库的工作.ppt_第2页
第2页 / 共32页
基于语料库的工作.ppt_第3页
第3页 / 共32页
基于语料库的工作.ppt_第4页
第4页 / 共32页
基于语料库的工作.ppt_第5页
第5页 / 共32页
点击查看更多>>
资源描述

1、基于语料库的工作张宇* 1中文信息处理中文信息处理 -基于语料库的工作基于语料库的工作大纲 什么是语料库 语料库的发展简史 语料库建设中处理的问题 数据标注Date 2中文信息处理中文信息处理 -基于语料库的工作基于语料库的工作什么是语料库 语料库,英文为 Corpus 存储语言材料的仓库 现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本 .Date 3中文信息处理中文信息处理 -基于语料库的工作基于语料库的工作关于语料库的三点基本认识 语料库中存放的是在语言的实际使用中真实出现过的语言材料; 语料库是以电子计算机为载体承载语言知识的基础资源; 真实语料需要

2、经过加工(分析和处理),才能成为有用的资源;Date 4中文信息处理中文信息处理 -基于语料库的工作基于语料库的工作语料库示例北京大学计算语言所富士通人民日报标注语料库样例:历史 /n 将 /d 铭记 /v 这个 /r 坐标 /n : /w 北纬 /b /m 度 /q 、 /w 东经 /b /m 度 /q ; /w 人们 /n 将 /d 铭记 /v 这 /r 一 /m 时刻 /n : /w 年 /t 月 /t 日 /t 时 /t 分 /t 。 /w 中国 /ns 政府 /nnt 顺利 /ad 恢复 /v 对 /p 香港 /ns 行使/v 主权 /n , /w 并 /c 按照 /p “/w 一国

3、两制 /j ”/w 、 /w “/w 港人治港 /l ”/w 、 /w 高度 /d 自治 /v 的 /u 方针 /n 保持 /v 香港 /ns 的 /u 繁荣 /an 稳定 /an 。 /wDate 5中文信息处理中文信息处理 -基于语料库的工作基于语料库的工作语料库的分类 生语料库 /熟语料库 生语料库 就是未经加工的 ,没有任何切分 ,标注标记的原始语料库 熟语料库 就是指经过加工 ,带有切分 ,标注标记的语料库 系统型语料库 /专用型语料库 系统型语料库 就是依据事先确定的选材原则和比例选取语料的语料库 专用型语料库 就是指专门服务于某个特定目的的语料库 单语种语料库 /多语种语料库Da

4、te 6中文信息处理中文信息处理 -基于语料库的工作基于语料库的工作语料库发展简史 第一代( 1970 80年代) 第二代( 1980 90年代) 第三代( 1990年代)Date 7中文信息处理中文信息处理 -基于语料库的工作基于语料库的工作第一代语料库 Brown语料库 LOB语料库 LLC语料库百万词级以语言研究为导向Date 8中文信息处理中文信息处理 -基于语料库的工作基于语料库的工作第二代语料库 COBUILD语料库 Longman语料库千万词级词典编纂应用导向Date 9中文信息处理中文信息处理 -基于语料库的工作基于语料库的工作第三代语料库 ACL/DCI语料库 The Association for Computational Linguistics Data Collection Initiative UPenn树库 LDC( Linguistic Data Consortium )超大规模(上亿词级)标准编码体系深度标注 /多语种 NLP应用Date 10中文信息处理中文信息处理 -基于语料库的工作基于语料库的工作

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。