1、1大数据时代下图书馆的挑战及其应对策略摘要文章首先阐述了大数据的特征与内涵,指出了大数据在图书馆工作中的重要性及两者之间的关系,分析了大数据所带来的数据管理、数据存储、数据挖掘等方面的挑战。然后研究了图书馆应从数据管理、数据技术及数据队伍建设上所采取的策略。最后探讨了大数据驱动下的图书馆服务新模式,如基于数据整合的一站式资源服务,基于数据处理的学科知识服务、信息可视化服务及基于数据挖掘的个性化智慧服务。 关键词大数据;数据处理;数据挖掘;数据服务;图书馆 DOI:10.3969/j.issn.1008-0821.2013.05.003 中图分类号G250文献标识码A文章编号1008-0821(
2、2013)05-0009-05 随着社会高速的发展,泛互联网的进程加快,数据量的增加已经到达了前所未有的速度。Facebook 每天生成 300TB(注:1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB)以上的日志数据,Google 公司每个月处理的数据量超过 400PB,百度每天约处理几十 PB 数据,淘宝网每天交易能产生约 20TB 数据1。根据国际数据公司 IDC 2011 年发布的 Digital Universe Study,全球信息总量每过 2 年,就会增长 1 倍。仅在 2011 年,全球被创建和被复制的数据总量为 18ZB,且每年以 60
3、%增加,2020 年全球每年产生的数字信息将达到 35ZB2。数据的2爆炸式增长超出人们的想象, “大数据” (Big Data)时代已经来临。大数据是继云计算、物联网以后,信息科技等行业又一次大的技术变革。 最早提出“大数据”概念是麦肯锡公司(Mckinsey and Company) 。2011 年 5 月,麦肯锡公司在大数据的报告中指出3:数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。其后,大数据迅速成为政府及信息科技等行业关注的热点。2012 年 3 月,美国政府启动“大数据研究和发展计划” ,将“大数据研究”上升为国家战略高度4;一些著名企业如 IBM、EMC、Mi
4、crosoft 开始对大数据进行研究。大数据最典型的应用是在沃尔玛公司利用大数据技术创造的“啤酒与尿布”的经典商业案例5。互联网企业 Google 及 Facebook 之所以取得令人瞩目的成绩,其核心的本质就是其公司记录和分析了用户网络操作的大数据,从而精确掌握用户行为、形成预判。图书馆是信息搜集、存储和进行知识服务的机构。在大数据时代下,如何进行数据管理;如何以“大数据”为基础,帮助用户从海量的数据中快捷发现与获取信息资源;如何挖掘用户行为特征,实现个性化、定制化的智慧服务等等都是图书馆面临的新的挑战与机遇。本文对此进行了深入的分析与研究,主要阐述了大数据带给图书馆的影响与挑战,分析了大数
5、据对图书馆的重要性,重点探讨了图书馆的大数据建设若干策略及图书馆的大数据服务模式。 1 大数据的特征与内涵 什么是大数据?目前,还没有一个统一的定义,简单一点可以理解为超出传统数据管理工具处理能力的大规模、复杂的数据集合。IBM 公司认为大数据具有“3V”特点,即种类(Variety)多、速度(Velocity) ,3快、容量(Volume)大6。但以 IDC 为代表的业界将其归纳为具有“4V”特征海量(Volume) 、多样性(Variety) 、高速(Velocity)和易变性(Variability) 。不管是“3V” ,还是“4V” ,其内涵包含了以下这些特性。第一,数据体量巨大。 “
6、大”是指数据规模,一般指在 10TB规模以上的数据量。一部史记 ,共 526 500 字,约 1MB 数据,一组用于基因研究的染色体照片数据量超过 2TB。第二,数据类型繁多。这种类型的多样性也让数据被分为结构化数据和非结构化数据。互联网的迅猛发展,现在的数据类型早已不是单一的文本形式,还包含了大量的网络日志、微博、视频、图片、邮件等大量的半结构化与非结构化数据。第三,价值密度低。价值密度的高低与数据总量的大小成反比。大数据中有很多垃圾,有很多不相关的信息,只有一些有用的信息隐藏在大数据信息里面。以视频为例,一部一小时的视频监控过程中,可能有用的数据仅仅只有一两秒。第四,处理速度快。大数据里面
7、很多是实时数据,像微博、社会网络、SNS 这些,要求它进行立竿见影的分析和处理,而不是事后追诉。 随着信息化建设的发展,图书馆除了本身包含的大量数字资源外,日益增长的电子资源,高速网络及移动图书馆的普及,云计算、RFID、语义网、社交网络等新技术的发展提供了广泛的数据来源,图书馆正在迎接大数据时代的到来。 21 各种电子资源(电子书刊,多媒体资源等)的积累,给图书馆提供了海量数据信息技术的发展极大地促进了图书馆数字资源的生产,形成了包括电子图书、电子期刊、数据库、音视频资源、网络资源在内的4海量数字资源,电子资源种类和数量正在超越纸本资源。据调查,全球新产出的信息量每 3 年翻一番,大约 90
8、%的信息都是以数据形式储存。截至 2011 年底,中文网页数量达 866 亿个,年增长率达 443%。文献的出版方式发生巨大的变化,数字出版日益普及,截至 2010 年底,中国电子书总量已达 115 万种,年新增 18 万种。单独出版的数字报已达 700 份以上,电子期刊已近万种。2010 年底,清华图书馆机房有 110 台服务器,集中存储 170TB,国家图书馆资源总量达到 470TB。这些资源分布在不同的系统中,形态不同,组织方式各异,既包括传统文献的数字化,也包括各种类型的原生数字资源,还包括其它虚拟馆藏等各种多媒体资源。各种电子资源的积累,给图书馆提供了海量数据。 22 智能手机、高速
9、网络及移动图书馆的普及, 使数据量呈现指数上升的趋势信息技术、网络技术迅猛发展,手机上网、数字电视等跨网络等业务发展迅速。截至 2011 年底,我国网民人数达 513 亿,互联网普及率达 383%,手机用户已突破 9 亿人,其中手机上网达 356 亿,数字电视用户超过 1 000 万户,以上为数字图书馆提供了基于多网络平台的信息传输途径和服务渠道。近几年,移动设备如雨后春笋,智能手机、平板电脑为学习者提供了新的学习途径,并以其它设备无法比拟的优势提高学习体验并与人产生更多的交互,使得数据快速增加。自 2003 年以来,移动图书馆越来越普及,移动阅读,移动搜索等服务类型也不断增加。未来 3 年内
10、,移动设备所产生的数据量呈现翻倍的趋势。 23 云计算、RFID、语义网、社交网络等新技术的发展,为大数据提供了广泛的数据来源云计算的到来,突破了传统图书馆发展局限,超强的数据处理5能力,信息资源的整合,动态资源分配,简化的 IT 结构,云计算为大数据的诞生创造了物质基础。利用 RFID 技术,可实现图书自动借还,智能盘点,自动分拣,图书位置与信息的实时跟踪导航。以Facebook、Twitter/微博为代表的社会网络因为体现了开放、共享、参与、个性化、用户驱动等 Web20 特性而深入人心。语义网是人们经过研究,期待已久,能够使信息发生“革命” ,从而上升到“知识”的技术。2009 年,美国
11、康奈尔大学和六家机构筹建一个 Facebook 风格的专业社交网络VIVO 网,其宗旨是建立一个连接开发数据的语义 Web。科学家通过 VIVO 网可以看到网络中的研究人员正在进行的其它科学研究,便于快捷地找到同行并建立联系,致力于新的发现和创新。 由此可知,信息时代的发展使得图书馆具备大数据的特征。科学研究和科技创新越来越依赖于对数据的管理和利用,学科知识服务依赖于大数据的分析与挖掘。但是,要面临的数据非常复杂,图书馆将遇到很多挑战。 3 大数据时代下图书馆的挑战与建设策略 大数据不仅挑战图书馆传统的 IT 架构与数据获取、数据存储、数据处理的模式,而且来自数据管理及数据应用、数据服务对图书
12、馆的挑战将更为突出。但从潜在的机会看,数据量的增加为图书馆提供了精确把握用户群体和个体网络行为模式的基础,如果能够充分利用,就可以探索个性化,精确化和智能化地进行推送和服务,帮助用户从海量的信息中迅速找到所需要的信息,提升图书馆的数字知识服务水平,促进数字图书馆领域的发展。当前,图书馆的大数据挑战主要集中在以下 3 个方6面: 问题一:传统的网络架构不适应“大数据”时代 传统的网络结构设计是以用户端向服务器发出请求,由服务器应答返回结果给客户的垂直结构。而在大数据时代,这种垂直结构的服务请求将变得越来越少,取而代之的是水平结构的横向请求服务。 “大数据”时代,大量的数据都存储在分布广泛、不同地
13、域、各种类型的服务器中。当用户发出一个搜索或查询请求时,最多的运算是服务器之间的信息交换,最后将结果返回给用户。传统的网络架构已经不能满足大数据时代网络应用需求。新一代网络架构要适应 Web20 时代的水平服务应用7。 问题二:数据中心将面临巨大压力 传统的数据仓库是通过 ETL 工具将数字资源中的数据抽取到数据仓库进行集中存储和管理,然后组织数据进一步从数据仓库中读取及访问数据,并进行数据分析。但在大数据时代,图书馆数据库里的内容不仅仅是多,而且结构已发生了极大改变,不是以二维表的规范结构存储。大量的数据是非结构化的办公文档、文本、图片、XML、HTML、各类报表、图片和音频/视频等,面临如
14、此大量的非结构化数据,其移动和修改将耗费大量的人力物力,数据移动代价太高,读取效率也将越来越低。更多的网络设备将同时访问数据中心,传统数据中心难以适应快速变化,面临巨大压力7。 问题三:如何快速找到自已的资源,如何获取、管理和分析这些用户信息行为数据并加以利用及服务。 在大数据时代,用户面对众多图书馆的数据资源,深受大数据所带7来的困扰,很难方便、快捷、准确地检索到所需数据资料。2011 年麦肯锡公司在报告中指出全球新的数据不断增长,但是却有 875%的数据,并没有形成真正的知识源以供研究人员利用3。 大数据时代,图书馆面临大数据管理、技术和应用等方面存在的问题和挑战,对这些问题的思考,未来图
15、书馆,是以数据为纽带,其形态将从物理图书馆逐渐转变为“数据图书馆”及“智慧图书馆” 。由此,图书馆应采取以下应对策略: 31 管理层次上:成立数据管理部门与机构,制定数据管理政策、统一的标准及共享平台大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。为此,图书馆应成立新的数据管理部门,负责数据管理,建立统一的数据获取、使用、管理、分享的政策,加强校内,外各部门的数据协调工作。如在美国高校中,现在有些学校如 MIT、弗吉尼亚大学及康奈尔大学图书馆成立了专门的“研究数据管理服务工作组(RDMSG) ”,负责有关
16、数据管理中所涉及的问题:如元数据标准、数据存储、数据共享和重用、数据管理计划、处理数据版权和合理使用数据问题、举办知识产权、开放数据、开放科研等主题的培训和讲座、研究数据知识库的评估、管理、推介、导航服务等8。 32 技术层次上:构建图书馆大数据架构,研究解决大数据采集、存储,处理及分析相关技术问题大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。迎战大数据,进行技术前倾是关键。要把大数据作为一系统工程来8考虑,从数据采集,数据存储到数据处理,数据分析及数据应用等方面考虑,构成图书馆大数据架构图,见图 1。 在大数据技术中,从图书馆系统角度,
17、主要解决下面几方面的关键技术: 321 大数据的统一表示及融合 图书馆大数据中包括越来越多不同格式的数据,从电子资源,到简单的电子邮件、数据日志和阅读记录,社交网络,再到实验等科研中收集到的科学研究数据以及丰富的媒体数据(包括课件,照片、音乐、视频资源等) ,这些不同格式的数据也需要不同的处理方法,给我们处理数据带来了一定麻烦。从某种意义上来说,目前表示数据的方法,不一定能直观地展现出数据本身的意义。数据不整合就发挥不出大数据的重大价值。大数据面临的一个基本问题是各种数据和信息能否规范、统一的表示及方便地融合,构建文献与数字资源体系。因此,要研究通过对海量的,来自异构资源的数据和各种对象数据进
18、行抽取、映射、收割、导入等手段进行预收集,归并映射到一个标准表达式,进行预聚合及融合,形成格式统一,内容丰富、结构清晰的数据,灵活构建各种分类和界面,按照知识本体进行组织和揭示,进而保障强大高效的检索能力和良好的结果相关度排序。 322 解决大数据量存储的问题 在大数据的挑战问题中,大数据的第一个关键技术问题:就是对大数据的高效率存储和访问需求,对数据库高可扩展性和高可用性的需求,随着数据库技术以及云计算技术的迅猛发展,大规模数据存储要借助非关系型的数据库分析技术NoSQL、MapReduce 和 Hadoop。它们的优势9具有大规模并行处理、简单易用等特点,非常适合非结构数据处理,也成为大数
19、据分析领域的主流技术。大数据存储也可采用基于云计算的分布式存储技术,利用分布式的数据云存储技术和与之相关的虚拟技术使得整合后的图书馆海量数据更加统一有序,能够方便快捷地通过网络,根据需求访问计算与存储等服务。 323 解决非结构化数据的分析和挖掘的问题 大数据中包含数据信息量大且复杂多样,因此数据分析和挖掘工作具有重要作用。传统的数据挖掘对关系型数据,非结构化的、半结构化的数据显得力不从心。对于图书馆大数据中,待处理的非结构化数据与读者兴趣密切相关,通过分析读者显性行为和挖掘隐性行为,为读者提供个性化服务。目前使用的推荐方法是基于内容的推荐方法和协同过滤的推荐方法。协同过滤算法是目前最为成功的
20、算法,但依然存在读者兴趣变化、数据稀疏性、读者评分的真实性及差异性等问题,根据读者信息数据构建个性化读者行为模型,结合基于读者行为的协同过滤算法,挖掘模型中存在的规则,从而产生个性化服务值得研究。 33 队伍建设上:培养一支高素质的数据管理的馆员队伍大数据环境下,图书馆传统的管理模式、工作内容、工作方式发生了本质的变化。而目前不断增长的数据共享和数据管理需求为图书馆服务开辟了新的领域,图书馆需要抓住这个机遇,尽快开展数据管理服务,拓展支持研究的服务内容和能力,使图书馆员成为数据管理服务的提供者。美国国家科学委员会(NSB)提出的以数据获取、处理、保存、分析、利用和可视化为职业的“数据科学家(D
21、ata Scientist)中,其中含信息与计算机科10学家,学科专家、数据处理员及图书馆员等。美国研究图书馆协会也已提出,研究数据管理将成为下一代图书馆员的能力之一9-10。因此必须培养和造就一支懂技术、懂管理的大数据建设专业队伍。当前的任务是如何在现有基础上,拓宽馆员知识面,增强业务能力,培养出能满足图书馆数据服务需求的高素质的“数据馆员” ,并使之成为学科信息资源的组织者、传播者、导航者、教育者,促进图书馆事业更好的发展。 4 基于大数据的图书馆的服务模式研究 大数据时代下的图书馆将从“物理图书馆”转变为“数据图书馆” 。图书馆服务不管是服务的方式、途径、模式等也都将发生改变。从服务的理
22、念上转变为基于数据的服务。以“大数据”为基础,围绕从数据汇聚到信息加工,知识服务,智慧服务的四个层次展开服务,见图 2。下面具体对数据驱动下的图书馆的服务模式进行分析研究。 41 基于数据整合的一站式资源服务 大数据时代下,数据资源是海量的,理论上一个图书馆可以收集所有的数据资源,如各类文献资源,科研成果,学术交流,甚至包括各种访问,社交等日志信息等各种网络资源等。但是,这些数据来源于不同的机构知识库或读者个人,图书馆可以充分利用机构优势有组织地通过对各类数据源的定位和连接,实现数据的采集、传输和汇聚。鼓励读者开放存取各种数字资源,使用户不仅是资源的接受者和学习者,而且是资源的的发布者和贡献者11。由于数据资源具有数量巨大、类型多样、变化快、无序等特点,因此很有必要建立数据的统一标准,迎合对于飞速增长的异构系统进行有效整合的需求。提供资源之间的无缝链接,提