1、1面向大数据时代的图书馆知识服务摘要本文简述了大数据的基本概念、特点、处理流程和处理模式,探讨了在大数据时代,图书馆将在数据集成、数据分析和数据隐私问题等方面面临着巨大的挑战与考验,最后,提出了大数据时代图书馆如何利用大数据技术在知识服务方面进行创新,从而提高图书馆的核心竞争力,以应对未来可能面临的生存危机。 关键词大数据;知识服务;个性化 DOI:10.3969/j.issn.1008-0821.2013.10.007 中图分类号G250文献标识码A文章编号1008-0821(2013)10-0033-05 随着云计算、物联网等技术的兴起,以及博客、微博、社交网络和基于位置的服务 LBS(l
2、ocation based service)等新型信息发布方式的不断涌现,再有极其微小带有处理功能的传感器广泛布置于社会的各个角落,监控整个社会的运转,新数据源源不断的从这些设备自动的产生,今天数据的增长速度前所未有,随着数据的迅速增长和累积,大数据时代已经来到,社会各界都已经开始密切关注大数据问题,并对其产生浓厚的兴趣。如:学术界,早在 2008 年Nature就推出了 Big Data 专刊1;IT 业界,全球知名的咨询公司麦肯锡(McKinsey)2011 年 6 月份发布了一份关于大数据的详尽报告“Big data:The next frontier for innovation,co
3、mpetition,and productivity”2,对大数据的2相关问题进行了详尽的分析。进入 2012 年,人们对大数据的关注更是与日俱增。2012 年 3 月份美国奥巴马政府发布了“大数据研究和发展倡议”3(Big data research and development initiative) ,正式启动“大数据发展计划” 。计划利用大数据技术在科学研究、环境、生物医学等领域进行突破。2012 年 5 月联合国一个名为“Global Pulse”的倡议项目也发布报告4,对大数据的应用进行初步的解读,并阐述各国特别是发展中国家在大数据时代面临数据洪流(data deluge)时所遇
4、到的机遇与挑战。同时,媒体也发文宣传介绍大数据,如纽约时报的文章“The age of big data”5,使普通民众开始意识到大数据的存在及可能产生的影响。 1 大数据 1.1 大数据的基本概念和特征 大数据的概念本身比较抽象,目前尚未有一个公认的定义,维基百科的定义则简单明了6:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。在大数据的定义问题上,一般从对大数据特征的阐述和归纳上给出定义,如认为大数据有 4 个特点的 4V 定义7-9:(1)从体量(Volume)上,数据规模庞大;(2)从类型(Variety)上,模态繁多,结构化、半结构化、非结构化三者融合
5、,并且半结构化和非结构化数据所占份额越来越大而且在相当长的时期内非结构化数据会占据大数据的主体;(3)从时速(Velocity)上,生成快速,其主要特征是数据的快速和实时化;(4)从价值(Value)上,价值巨大但密度很低,大数据的价值往往呈现出稀疏性的特点。 3大数据除上述 4V 定义阐述和归纳的特征外,还应具有如下特征:首先在数据模式(schema)和数据的关系上,不同于传统的数据库都是先有模式,然后才产生数据,而是先有数据而后才能确定模式,且模式随着数据量的增长处于不断的演变之中;再者在处理对象上,对大数据我们需要从根本上转变思维,大数据不仅是数据处理的对象,更是一种基础资源,我们可用数
6、据这种基础资源来协同解决其他诸多领域的问题。图灵奖获得者、著名数据库专家 Jim Gray 博士提出了一种新的被他自己称之为“第 4 种范式” (The Fourth Paradigm)的数据探索型科学研究方式10,第 4 种范式的实质就是数据思维,从以计算为中心转变到以数据处理为中心,采用第 4 种范式来作指导的典型的科学研究领域,如:计算社会科学(computational social science)11。 1.2 大数据的处理流程和处理模式 数据收集的根本目的是根据需求从数据中提取有用的知识,并将其应用到具体的领域之中,大数据的出现必将颠覆传统的数据管理方式。大数据的数据来源广泛、应
7、用需求和数据类型都不尽相同,但是最基本的处理流程是一致的。整个大数据的处理流程可以定义为在合适工具的辅助下,首先对广泛异构的数据源进行抽取和集成,按照一定的标准将结果统一存储,然后利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识,最后将结果以恰当的方式展现给终端用户。具体来说可以分为数据抽取与集成、数据分析以及数据解释12。 主要处理模式可以分为流处理(stream processing)和批处理(batch processing)两种13-14。批处理是先存储后处理(store4thenprocess) ,而流处理则是直接处理 (straightthrough processi
8、ng) 。流处理的基本理念是数据的价值会随着时间的流逝而不断减少,因此尽可能快地对最新的数据作出分析并给出结果是所有流数据处理模式的共同目标。 2013 年 10 月 1 第 33 卷第 10 期 1 现?代?情?报 1Journal of Modern Information1Oct.,20131Vol.33No.102013 年 10 月 1 第 33 卷第10 期 1 面向大数据时代的图书馆知识服务 1Oct.,20131Vol.33No.102 大数据时代数字图书馆的数据处理面临的新挑战 大数据技术是一项颠覆性的技术,为数字图书馆提供一种技术解决方案,大数据技术有助于海量数据的网络应用
9、,并释放复杂数据中的智能。但由于大数据时代,数据模式(schema)和数据的关系不同于传统的数据库时代,是先有数据而后才确定数据模式,且数据模式有可能随数据的不断增长而处于不断的变化中,以及数据的广泛分布、多源异构、动态变化、规模宏大等等大数据时代的数据特点,使得大数据时代数字图书馆的数据管理面临着许多新的挑战,主要从下面几个方面进行详细分析。 2.1 大数据时代的数据集成 大数据时代,数据的广泛异构性相较于传统的数据的异构性出现了新的变化,主要体现在下面几个方面:第一,数据类型多样性方面,传统数据库时代的数据多样性的种类较少,往往仅有少数的几种,且以结构化的数据为主,但大数据时代的数据种类繁
10、多,包含着结构化、半结构化以及非结构化的数据,并且半结构化和非结构化数据所占份额越来越大;第二,数据产生方式的多样性带来的数据源的多样性变化,传统5的数据主要产生于各运营式系统中位置相对固定的服务器或者是个人电脑等设备,随着便携式移动终端的快速发展以及感知式系统的广泛使用,如智能手机、GPS 以及极其微小带有处理功能的传感器等,这些设备广泛地布置于社会的各个角落,监控整个社会的运转,并源源不断的产生新数据,使人类社会的数据量发生大的飞跃导致了大数据的产生,产生于这些设备的数据带有很明显的时空特性;第三,由数据存储方式的变化引起的集成过程中的数据转换,传统数据主要存储在关系数据库中,大数据时代,
11、为满足大数据的存储需求,实现海量数据的高效存储,数据多存储于采用非关系模型的 NoSQL(not only SQL)数据库以及分布式文件系统如 Google 的 GFS、Facebook 的 Haystack、Hadoop 的 HDFS 中,因此,集成过程中的数据转换过程非常复杂且难以管理。 大数据时代,数据规模大,同时信息垃圾泛滥,因此,在数据集成时,为了不让过多的无用数据干扰后续的数据分析过程,必须进行数据清洗,但在数据清洗时,在进行谨慎和仔细地考量的基础上,权衡质与量,对数据清洗的粒度做出合适的选择,如果信息清洗的粒度过细,很容易将混杂在庞大数据量中的相对细微的有用信息过滤掉,清洗粒度过
12、粗又无法达到真正的清洗效果。 2.2 大数据时代的数据分析(analytics) 传统的在实践中行之有效的数据分析技术,如数据挖掘、自动分类、聚类、关联分析等方法,是从以结构化为主、静态的、数量相对较少的数据中提炼更深层次的知识的分析技术,随着半结构化和非结构化的数据量迅猛增长,逐渐成为大数据的主流,传统的分析技术在处理以半结6构化和非结构化为主、动态的、规模宠大的大数据时,遇到了巨大的冲击和挑战,主要体现在下面几个方面。 (1)在数据处理的实时性方面,缺乏通用的大数据实时处理框架。大数据时代,动态变化的数据中所蕴含的知识价值随着时间的流逝往往也在衰减,因此,大数据时代在很多领域要实现对于数据
13、的实时处理,在很多应用场景数据分析要从离线(offline)转向在线(online) ,数据处理模式的选择及改进是大数据时代数据实时处理面临的主要挑战。在流处理、批处理以及二者的融合 3 种实时处理的模式选择中,人们进行了很多研究,也已有了一些研究成果,但各种工具实现实时处理的方法不一,支持的应用类型都相对有限,至今仍未有一个通用的大数据实时处理框架,这样在实际应用中就要求人们有能力根据自己的业务需求和具体的应用场景改造现有的这些技术和工具,才能满足自己的要求。 (2)设计结构简单、高效和适应动态变化环境的索引方案。索引能够加速查询速率,但在设计大数据的索引时,由于其数据模式可能随着数据量的不
14、断变化而处于不断的变化之中,因此索引的结构要简单、高效且能够进行不断的调整以适应数据模式的变化,目前一些在采用非关系模型的 NoSQL 数据库上构建的索引方案,其基本都是适用于数据模式不太会发生变化特定的应用场景。 (3)缺乏先验知识。传统对结构化数据展开的数据分析,由于以关系模型存储的结构化数据中隐含了这些数据的一些先验知识,如其内部关系等,这样在数据分析之前我们就已经对数据有了一定的理解,但在对以半结构化、非结构化数据为主的大数据进行数据分析时,就难以构7建出其内部的正式关系,再者对大数据进行实时处理时,随着源源不断的数据流的到来,很难有足够的时间去建立先验知识。 2.3 大数据时代的数据
15、隐私问题 数据隐私问题由来已久,但大数据时代的数据隐私问题更加严峻,大数据时代的隐私保护主要面临下面几方面的挑战。 (1)解决好隐性的数据暴露问题,现在人们都已具有隐私保护意识,在很多情况下都有意识地隐藏自己的行为,但由于在大数据时代,人们在不同的时间、地点和场景的一切活动都将产生很多各种类型的数据足迹,用户在某个具体场景的单一信息可能不会暴露自己的隐私,但如果用大数据技术能将某个人在各种场景的这些数据足迹累积和关联起来聚集在一起,就能收集到足够多的有关他的个人信息,这样他的隐私就很可能会暴露,并且个人往往无法预知和控制这种隐性的数据暴露。 (2)平衡数据公开与隐私保护的矛盾,如果片面地追求隐
16、私保护而将所有的数据都加以隐藏,在大数据时代,数据这种基础资源就会被浪费,其巨大价值根本无法体现,从有效利用数据这种基础资源的角度出发,非常有必要进行数据公开。政府可从公开的数据中收集、整理和分析这些数据足迹(data print) ,以便进行社会解释,了解和监控整个社会的运行情况,预测、规划整个国民经济社会的运行的过程,更好地指导社会的运转。企业从对这些数据足迹的分析和挖掘中,不仅可以了解掌握客户的行为喜好开发出有针对性的产品和服务,而且还可以寻找潜在的目标用户进行精准的广告投放等,这样客户获得了更满意的产品和服务,企业利益也获得最大化。因此,在大数据时代的隐私保护是指在8不暴露用户敏感信息
17、的前提下对数据进行有效的挖掘,由于数据信息量和隐私之间是矛盾的,目前还没有非常好的解决办法,近年来有很多学者致力于这方面的研究,尝试在尽可能少损失数据信息的同时最大化地隐藏用户隐私。提出了一些解决大数据中隐私保护问题的研究方向,如文献15-16提到的保护隐私的数据挖掘和新的差分隐私(differential privacy)方法,但是离实际应用还有很远距离。 3 图书馆利用大数据在知识服务方面的创新 随着大数据技术的不断进步及用户要求的不断提高,将进一步推动着图书馆的知识服务的方式、途径、模式等发生颠覆性的变化,尤其是高校图书馆,更应抓住机遇充分利用大数据技术为读者提供具有更加鲜明的个性化、学
18、科化、泛在化的知识服务,从而提高图书馆的核心竟争力,以应对图书馆未来可能面临的生存危机。 3.1 图书馆知识服务的学科化、专业化 3.1.1 构建学校的重点及重点建设的学科领域的领域知识库 利用大数据技术提升图书馆知识服务的学科化、专业化水平,发挥图书馆员在信息收集整理和分析加工中的优势,对学校的重点及重点建设的学科领域的各种类型和各种数据源的资料信息如论文、专利、科情动态、研究报告、甚至网络中相关学科领域的专家学者的博客、论坛等一搜到底并进行分析和挖掘,在和学科领域的专家的结合下,构建学校的重点及重点建设的学科领域的领域知识库,主要包括专业领域的基本概念、概念之间的相互关系以及概念的约束条件
19、,该专业领域研究内容、研究分支、研究趋势,甚至领先的研究机构分布及该领域著名专家学者9等。目前领域知识库构建常用的技术是基于语义的领域知识库的构建,如基于本体的领域知识库构建,基于本体构建领域知识库最重要的就是确定领域知识内的概念及概念间的关系,并以本体的形式表示出来,以便于检索。 3.1.2 构建结构化学科服务模式,满足多层次用户的需求 根据用户层次以及用户对学科服务水平需求的高低,设计学科服务内容结构,将学科服务内容划分不同的层级,大致包括基础文献服务、学科概貌了解、学科分支梳理、热点前沿探索、趋势分析创新点挖掘等。依据结构化学科服务模式在现实服务中,不同的知识服务层次对应的用户不同,服务
20、方式与内容也不相同,结合用户类型和服务内容,采取不同策略,开展不同层次的学科服务,解决学科服务使用统一模式带来的低效益问题。如对低年级的在校本科生,需求层次主要是前三层,是较常规的学科服务,服务方式主要可以是数据库使用培训、数据检索等,再者如对学校的重点科研团队和学科带头人的学科服务,对学科知识服务的需求基本是最高层次需求,需提供如本文 3.2.1 小节和 3.2.2 小节所述的个性化知识服务,从而辅助教师预测学科的研究趋势,发现某一新的研究方向,从而进行科研选题决策等。 3.2 个性化的知识服务 利用大数据技术进一步推进图书馆知识服务的个性化、泛在化,融入学校的教学和科研活动,辅助科研群体进
21、行决策,重塑图书馆在教职工心目中的存在价值,增强图书馆对读者的粘着性,防止用户流失。 3.2.1 提供个性化的数据分析服务 10图书馆工作人员利用引文分析法、聚类分析法、专利技术分析法等知识发现方法,按需为读者提供针对某一具体的研究领域或研究问题数据分析服务,从而辅助教师预测学科的研究趋势,发现某一新的研究方向,从而进行科研选题决策等。 (1)图书馆员通过“科学引文索引” (SCI) 、 “期刊引用报告”(JCR)和中国引文数据库等引文分析工具,查得引文数据再利用引文分析法,分析科学的发展脉络,通过文献的引用与被引用关系还可以发现某一研究方向的发展脉络,预测研究趋势。 (2)图书馆员广泛收集某
22、学科领域的各种类型和各种数据源的资料信息,利用一些聚类分析软件,使用聚类分析法通过对这些资料信息的研究,把该领域的研究方向做一个完整归纳的,并将研究方向加以分类,使该领域的研究人员从一个宏观的角度,全面考察整个研究领域,从而对自己所从事的科研工作有一个更加广泛的了解,发现与自己的研究课题相关的其他研究分支,从广度上推动自己的科研工作,还可以帮助科研人员发现文献之间的关系中所隐含的一些重要的研究方向,从而发现新的不同的研究方向,对于辅助科研人员科研方向的选定有着重要的参考价值,尤其是在选题之初。 (3)利用专利技术分析从技术层面了解某一领域的专利技术分布情况和发展趋势,以确立技术开发的方向,从而为科研工作提供技术和方法上的帮助,另外也能避免做重复而无意义的研究,然而由于专利分析的工作量非常大,如果由科研人员直接承担,将占用其大量的宝贵科研时间,是一种浪费。图书馆为教师提供专利分析服务,按需从专利文献
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。