大数据技术与应用 计算机中心第2 章大数据采集及预处理导学 一、内容与要求 1.理解大数据采集的基本概念,掌握 大数据采集的数据来源,了解大数据 采集的技术方法。 2.了解大数据预处理的方法和了解大 数据采集及预处理的常用工具。 二、重点、难点 重点是大数据采集的概念,大数据 采集的数据来源和技术方法。难点 是大数据预处理的方法。2.1 数据采集简介 2.1.1 数据采集 大数据的数据采集是在确定用户目标的基础 上,针对该范围内所有结构化、半结构化和非结 构化的数据的采集。 传统 的数据采集 大数据的数据采集 数据来源 来源单 一,数据量相对 大数据较 小 来源广泛,数据量巨大 数据类 型 结 构单 一 数据类 型丰富, 包括结 构化、半结 构化、非结 构化 数据处 理 关系型数据库 和并行数据仓库 分布式数据库2.1.2 数据采集的数据来源 按照数据来源划分,大数据的三大主要来 源为:商业数据、互联网数据与物联网数据。1商业数据 商业数据是指来自于企业ERP系统、各种 POS终端及网上支付系统等业务系统的数据,是现 在最主要的数据来源渠道。2互联网数据 互联网数据是指网络空间交互过程