1 做中国领先的科研资源提供商第四章第四章 非结构化数据的处理非结构化数据的处理大数据处理大数据处理配套课件配套课件总课时:4小时(实验:3小时)2 提纲 非结构化数据处理概述 自然语言处理技术概述 自然语言处理的基本技术3 什么是非结构化数据n 相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。4 绝大部分数据是非结构化数据n 世界上85%的数据都是非结构化数据,这些数据每年都按指数增长60%。5 非结构化数据处理的技术n 非结构化数据处理的主要技术是自然语言处理技术。用来对非结构化数据进行各种层次的理解。自然语言处理技术我要去清华大学,从西直门怎么走?学院路堵不堵?为什么我上个月已退了GPRS,这个月还扣我钱?服务:路线查询起点:西直门终点:清华大学服务:路况查询地点:学院路服务:客服投诉业务:GPRS诉求:错误扣费6 提纲 非结构化数据处理概述 自然语言处理技术概述 自然语言处理的基本技术7 自然语