1、大数据与档案管理上海大学图书情报档案系2013年 12月1. 大数据概述除了上帝任何人都必须用数据来说话1.1 大数据的定义n 大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集。 麦肯锡研究院( MGI)n 大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 高德纳( Gartner Group)n 大数据指的是如此大而复杂以致现有的数据管理工具或传统数据处理手段无法处理的数据集。维基百科( Wikipedia)n 康奈尔大学计算机科学家 JonKleinberg称, “ 大数据这个术语本身很模糊,但在某些方面却又
2、非常具体,大数据是可能改造一切的一种过程的标签 ” 。n 对于处在探索期的大数据研究来说,与其准确地予以限定性分析,倒不如更多地将精力放在对其特征、内涵的探寻和运用的研究之中。n 从研究者角度而言,与其寻找一个公认的定义,倒不如去分析这样的问题:当大数据来临时,就某一具体的业务(如数字档案馆、电子文件等)而言,我们是否可以富有想象力地回答,大数据究竟会对某一特定领域带来何种影响,以及人们面对这些影响所获得的机遇是什么?这才是我们跨学科研究的旨义所在,而这无疑具有更加重要的意义。1.2 大数据的特征( 4V)大量( Volume)n 数据中的数据不再以几个 GB或几个 TB来衡量,而是以 PB(
3、 1千个 T)、 EB( 1百万个 T)或 ZB(10亿个 T)为计量单位。n IDC2011年 6月报告显示,全球数据量在 2011年已达到 1.8ZB, “ 如果把所有这些数据都刻录存入普通 DVD光盘里,光盘的高度将等同于从地球到月球一个半来回,也就是 720 000英里。相当于每位美国人每分钟写 3条 Twitter,而且还要不停地写 2.6976万年 ” 。速度( Velocity)n 大数据往往以高速实时数据流的形式动态产生,具有很强的时效性。 2010年,据英国研究咨询公司 Coda预测,移动网络数据流量在未来五年有望增长 40倍,用户上传的内容将爆发式增长。n 对大数据的处理速
4、度要非常快。传统数据仓库系统、 BI应用都是批处理方式,但对于大数据应用,必须进行实时数据流处理。比如对于灾难的预测,需要很快地对发生的程度、影响的区域范围等进行量化。多样( Variety) n 一是数据来源多,随着科技的发展,大数据数据来源和承载方式多种多样,如微博、社交网站、传感器等,数据处于分散状态。n 二是数据类型多,包括结构化数据(如企业、行业内数据)、半结构化数据(物联网数据)、非结构化数据(互联网数据),并且据 Gartner预计, 2012年 “ 半结构和非结构化的数据,诸如文档、表格、网页、音频、图像和视频等将占全球网络数据量的 85%左右 ” 。价值( Value) n 由于大量有用与可能没用的数据并存,因此大数据可谓是 “ 遍地都是金子,又遍地都是沙子 ” 。n 一方面,大数据的价值密度较低,以视频监控为例,在连续不断的监控流中,可能仅有一两秒的影像是有用的数据。n 另一方面,虽然单条数据并无多大价值,但庞大的数据量则是一座 “ 富矿 ”,将已有的结构化与非结构化数据进行融合、分析后,将会从中挖掘出极高的价值。特别是竞争激烈的商业领域,数据正成为企业的新型资产,企业都在追求数据价值的最大化。