1、1基于共词分析的国内文献传递领域可视化研究摘要以共词分析为研究方法,结合聚类分析、多维尺度分析等多元统计方法,对 CNKI 数据库中 1999-2011 年国内文献传递领域的研究主题进行可视化分析。从 363 篇文献中提炼出 11 大类主题,其中馆际互借与资源共享主题是该领域的研究核心,高频词图书馆、馆际互借和读者服务是持续性的研究热点,研究者对文献传递服务体系、传输软件等主题的探索则是今后的研究趋势。 关键词文献传递;共词分析;聚类分析;多维尺度分析;战略坐标分析;社会网络分析 中图分类号G250;G252文献标识码A文章编号1008-0821(2013)02-0090-05 文献传递是应使
2、用者对特定已确定的出版或未出版文献的需求,由图书馆或商业服务单位等资料供应者将需要的文献或其代用品在适当的时间内,以有效地方式与合理的费用,直接或间接传递给使用者的一种服务1。文献传递具有快速、高效、简便的特点,包括返还式馆际互借和非返还式原文传递两种服务方式。 共词分析是文献计量学和内容分析法中常用方法之一。其原理是:当两个主题词在同一篇文献中出现时,表明两个词之间具有一定的内在关系,出现次数越多,表明它们的关系越密切、距离越近2。 以共词分析为研究方法,结合聚类分析、多维尺度分析、战略坐标2分析和社会网络分析等多元统计方法,对我国文献传递领域的研究主题进行可视化分析,旨在揭示十余年来的研究
3、成果、热点变化及发展趋势。1 数据采集 以CNKI 期刊全文数据库为数据源, “题名=文献传递”为检索策略,检索出 1999-2011 年国内发表文献 395 篇(时间截止至 2011.12.31) 。经过筛选,除去重复和不相关文献,最后用于统计分析的有效文献 363篇。 2 词频分析 2.1 提取高频主题词 选取文献中能高度概括文献内容并规范的主题词(即关键词) ,采用Excel 2003 作为词频统计工具,共提取主题词 407 个,总词频数 1 278次。 根据主题词累积频次变化曲线,截取频次在 4 次以上(4)的 39个主题词定位为高频主题词。其中“文献传递”出现频率最高为 270 次,
4、这是由于检索策略所致,为保证共词分析效果,暂时予以忽略。对 38 个高频词进行人工标引规范,将同义词汇归并整理,最终得到 28 个高频词,累计出现 553 次,累积频次达到 43.3%,可有效代表文献传递领域的主要研究内容(表 1) 。表 1 文献传递领域高频主题词 根据数据统计整理生成为消除频次悬殊造成的影响,用 Ochiia 系数将共词矩阵转换成相关矩阵(表略) 。计算公式:Ochiia 系数=A、B 两词同时出现频次/(A 词出现的总频率数B 词出现的总频率数)3。由于3相关矩阵中 0 值过多,为避免统计时误差过大,用 1 与全部相关矩阵中的数据相减,得到表示两词对相异程度的相异矩阵(表
5、略) ,作为之后可视化分析的矩阵变量4。 3 共词可视化分析 共词分析可归纳出学科领域的范式和研究结构,利用现代统计软件图形,将分析结果直观形象地显现出来,从而达到范式可视化的效果5。3.1 聚类分析 聚类分析以词对频率为统计对象,采用聚类算法的数据挖掘技术,把词间关系密切的主题词聚集成类,形成一个个类团6。将相异矩阵导入 SPSS,选择层次聚类算法,根据词间亲疏程度逐次将 28 个研究点聚合为 11 大类主题词团(图 1) 。 3.1.1 文献传递满足率 高频词:外文期刊、文献满足率。纸质文献是图书馆资源的重要组成部分,但日益上涨的文献价格、读者多样化的信息需求与图书馆采购经费不足的矛盾始终
6、制约着资源建设的发展。文献传递的开展可有效缓解这一矛盾,提高文献保障率。研究者从文献来源、传输渠道、获取价格等方面,分析了未满足读者请求的主要因素,并提出应对策略。 3.1.2 文献传递服务体系 高频词:CASHL、CALIS、NSTL 和服务模式。目前CALIS、CASHL、NSTL 是我国最具影响力、运作最为成功的三大文献传递服务体系。研究者从用户角度比较了三大系统的异同点、存在问题与不4足,提出完善系统服务的建议;从操作者角度对文献传递服务模式进行划分,剖析各种模式的利弊。 3.1.3 原文传递服务 高频词:文献信息服务、原文传递、信息资源。原文传递指信息提供者通过邮寄、电子邮件、传真等
7、通讯手段向用户提供文献的纸质印刷品或电子全文的一种非返还式文献传送服务。研究者对如何利用原文传递来指导馆藏建设、优化资源配置、完备信息资源保障体系进行了探讨。3.1.4 馆际互借与资源共享 高频词:馆际互借、文献资源共享、高校图书馆。馆际互借指同一系统或者不同系统的图书馆之间根据已有的协议,相互出借馆藏文献,是一种返还式的文献提供服务7。以高校图书馆为研究背景,研究者通过国外文献综 11 图 1 聚类树状图 11 述、发展历程分享、具体实例剖析等多角度,论述了馆际互借对图书馆文献资源拓展和共享的重要性。 3.1.5 文献申请数据统计 高频词:读者服务、图书馆、统计分析。研究者对申请者进行类型划
8、分和需求划分;从申请文献的数量、文种、类型、来源、补贴费用及满足率等方面进行统计分析。 3.1.6 资源建设与系统开发 高频词:文献资源建设、对策、文献传递系统。研究者借助文献传递来指导馆藏资源建设:重视灰色文献和小语种文献的开发利用;及时5补充高频申请资源;构建服务质量综合评价模型;加大宣传力度和经费补贴力度;开展馆际协作,实现资源共建共享。此外,研究者还自行设计开发了适应局部地区的小型文献传递系统。 3.1.7 网络环境 高频词:网络环境、电子文献。电子文献的出现使图书馆馆藏发生了结构性变化,使资源共享成为了可能。研究者分析了读者的需求变化、传统服务的变革与拓展,就如何更好地实现网络环境下
9、文献传递的功能和价值进行了探讨。 3.1.8 版权保护与合理使用 高频词:知识产权、版权保护、电子文献传递、合理使用。在图书馆开展文献传递过程中不可避免地会涉及版权问题。借鉴国外版权立法,在我国文献著作权法的权限内,研究者力图寻求个人权益与知识共享的平衡点。 3.1.9 文献检索工具 高频词:Google Scholar、文献检索。Google Scholar 是建立在Google 搜索引擎基础之上面向科研需要的网络检索工具8。它不仅为日常工作带来了全新观念和检索模式,而且带动了文献传递业务的整体革新:建立全国性联合目录和一站式检索系统,实现文献信息资源无障碍共知9;加入“图书馆链接”计划,借
10、助 Google 的网络影响力与平台提升馆藏资源与服务的可见度。 3.1.10 文献传输软件 高频词:Ariel。Ariel 是针对图书馆馆际合作而开发的文件影像传输软件,集扫描、传输、打印于一体,为读者提供快速、便宜、高质量6的文献传输服务10。研究者详细介绍了 Ariel 的主要功能、使用方法和系统要求。 3.1.11 发展趋势 高频词:发展趋势。在文献调研的基础上,研究者对国内外文献传递领域的研究成果进行综述,并对未来的发展趋势进行预测。 3.2 多维尺度分析 多维尺度分析是通过某种非线性变换,将高维空间数据转换为低维空间数据,变换后的数据仍能近似地保持原数据关系的一种技术2。利用 SP
11、SS 的多维尺度分析功能,将相异矩阵转换为二维可视化结果(图 2) 。11 图 2 多维尺度图谱 11 多维尺度图谱中,具有高度相似性的研究点聚集在一起,形成一个学科研究类别,越在中间的研究点表明与它有联系的研究越多,在学科里的位置也就越核心;反之,则越在外围2。如图 2 所示,11 大类主题内部链接松散,表明词团相似度不高;主题间相距较近、存在交叉现象,表明各自研究侧重不明显;主题馆际互借与资源共享最接近中心位置,是目前研究的核心内容。113.3 战略坐标分析 战略坐标分析是以二维坐标系来描述研究主题的内部联系和主题间的互相联系,反映了研究主题的成熟度与生长趋势。在战略坐标中,X 轴为向心度
12、,表示主题间相互影响的强度;Y 轴为密度,表示主题内部联系的强度。利用共词矩阵,选择高频词链接强度平均值算法,计算出各个主题的向心度和密度(表略) ,并在 EXCEL 中绘制对应的战略坐标图(图3) 。11 图 3 战略坐标图 11 7如图 3 所示,位于第一象限主题有馆际互借与资源共享、文献申请数据统计,词团内部链接紧密且与外界联系广泛,表明研究成熟且受关注度最高,处于所有研究的核心;位于第二象限主题有网络环境,词团内部链接紧密但与外界疏远,表明曾经受到关注,现已滑落到边缘位置;位于第三象限主题有文献传递满足率、原文传递服务等,词团内部链接松散且与外界疏远,表明研究内容不成熟,处于研究领域的
13、边缘;位于第四象限主题有文献传递服务体系、传输软件等,词团内部链接松散但与外界联系密切,表明研究尚未成熟,但具有潜在发展空间,是未来的研究趋势。 3.4 社会网络分析 社会网络分析是以关系为基本单位来研究社会结构的实证研究方法,常用到中心性分析和 K 核分析。中心性反映了研究点自身的影响力和与外界交流的程度,数值越高表示其影响力越强,对资源的控制程度越高,越接近网络的核心地位。K 核是建立在点度数基础上的凝聚子群概念,能够快速定位学科中的核心词团与边缘词团。 根据高频词平均共现次数将共词矩阵转换成二值矩阵,利用 UCINET 6 展现高频词之间的共现关系网络。11 图 4 社会网络图 11 社
14、会网络图中,节点代表高频主题词,节点大小代表其中心性;节点颜色代表高频词所处的不同位置;连线代表高频词之间的共现关系,连线数量代表词团之间的紧密程度。如图 4 所示,红色节点为文献传递网络的核心研究,其中高频词图书馆、馆际互借和读者服务的节点较大,表明具有较高的网络中心性,与其它研究联系密切;外文期刊、知识产8权等蓝色节点为次核心研究;文献资源建设、服务模式等黑色节点为孤立边缘研究。 4 结束语 运用共词分析法对 1999-2011 年间我国文献传递研究成果进行统计,并在共词聚类的基础上采用多维尺度图谱、战略坐标和社会关系网络进行可视化描述。从 363 篇文献中提炼出 11 大类研究主题。研究
15、表明,研究者对于馆际互借与资源共享主题的探讨占据了研究领域的核心位置;对于图书馆馆际互借及读者服务的研究呈现出持续性的热点;对于完善文献传递服务体系、开发应用更便捷的传输软件、探索文献传递未来之路将是今后的关注重点。 参考文献 1国立编译馆.图书馆学与资讯科学大辞典(上册)M.台北:汉美图书有限公司,1995:109. 2杨颖,崔雷.基于共词分析的学科结构可视化表达方式的探讨J.现代情报,2011, (1):91-96. 3曹玲,杨静,夏严.国内竞争情报领域研究论文的共词聚类分析J.情报科学,2010, (6):923-930. 4王红.基于共词分析法对近十年我国图情学研究热点的分析J.情报杂
16、志,2011, (3):59-64. 5白婷婷,郑新奇,赵璐.基于共词分析的复杂网络研究现状分析J.资源开发与市场,2011, (2):122-126. 6钟伟金,李佳.共词分析法研究(一)共词分析的过程与方9式J.情报杂志,2008, (5):70-72. 7鄂丽君,许子媛.高校图书馆馆际互借与文献传递服务的调查与分析J.图书馆杂志,2011, (11):59-63. 8马文筠,王磊,曹树华.从 Google Scholar 搜索引擎探讨当今图书馆文献传递业务工作J.科技文献信息管理,2011, (2):1-3. 9徐涤秋.从 Google Scholar 探索文献传递整体革新J.高校图书情报论坛,2009, (12):11-14. 10唐晶,刘斌,张文琦.文献传递服务和 Ariel 软件介绍J.情报杂志,2009, (6):189-190. (本文责任编辑:孙国雷)