浅谈大数据生态体系Talking about big data ecosystem何为大数据 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 大数据的特点: 一是数据体量巨大。至少是PB 级别以上量级的数据 二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。 三是处理速度快。数据处理遵循“1 秒定律” ,可从各种类型的数据中快速获得高价值的信息。 四是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。3大数据,首先你要能存的下大数据 传统的文件系统是单机的,不能横跨不同的机器。HDFS (Hadoop Distributed FileSystem )的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。 比如你说我要获取/hdfs/tmp/file1 的数据,你引用的是一个文件路径,但是实际的数据存放在很多不同的机器上。你作为用户,不需要知道这些,就好比在单机上你不关心文件分散在什么磁道什么扇区一样