精选优质文档-倾情为你奉上1.1、大数据概述1、大数据概述1996年,SGI公司首席科学家John Mashey第一次提出大数据的概念。2001年,Gartner分析师Doug Laney首先定义了大数据的三个维度:数据容量速度和种类(3V)。业界把3V扩展到了11V,但主要包括Volume、Velocity、Variety、Value等 2、大数据定义指无法在可承受的时间内用软硬件进行捕捉、管理和处理的数据集合,需要新处理模式才能使该数据集合成为具有更强的决策力、洞察力和流程优化等能力的海量、多样化的信息资产。 3、海量数据的来源由25%的结构化数据和75%的非结构和半结构化数据构成。数据类型分为:结构化数据:指可以存储在数据库里,可以用二维表结构来逻辑表达实现的数据。非结构化数据: 不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档,文本、图片,XML,HTML,各类报表图像和音频,视频信息等等半结构化数据:介于结构化数据和非结构化数据之间的数据。HTML文档就属于半结构化数据。