1、1高校图书馆流通数据挖掘的新思路摘要图书馆流通数据是图书馆业务流程优化的重要依据之一,对其分析方法层出不穷,但用于指导图书馆实践活动的甚少。本文通过参考与借鉴情报学基本定律与分析方法,重新定义并建立基于图书借阅频次的评价指标,即图书半衰期、图书集合普赖斯指数、图书滞架指数、图书 h 指数,以及基于读者借阅次数与行为的分析方法,即读者 h 指数等指标和图书耦合/共现网络模型,从而提高对高校图书馆流通数据的分析能力和组织能力,希冀为优化采购和布局配置,向读者提供积极、主动、个性化信息服务提供新的思路。 关键词OPAC 数据;流通数据;高校图书馆;评价指标 DOI:10.3969/j.issn.10
2、08-0821.2013.10.033 中图分类号G251.5文献标识码A文章编号1008-0821(2013)10-0143-06 图书馆借阅信息是伴随着图书馆门户公开化而诞生的副产品,但其在馆藏采购、馆藏管理、读者需求分析等方面具有不可忽视的作用。随着图书馆资源和管理数字化进程加快,每日都会从图书馆管理系统中产生庞杂的表单信息,如何让信息从无序到有序,便于从中了解读者借阅兴趣与倾向、馆藏图书的利用率,有必要对流通数据进行深度剖析。但是对于借阅数据的深度挖掘停留在研究层面的较多,付诸指导图书馆实践的较少,为了避免陷入数据丰富但信息贫乏的尴尬局面,图书馆有必2要增强对流通数据的分析能力和组织能
3、力,并以此为客观依据,向读者提供积极、主动、个性化信息服务,这也与泛在图书馆所要求打破被动服务壁垒,提高以读者驱动为导向的主动服务意识的宗旨相一致1-2。 1 图书馆借阅数据利用现状 目前国内外学者对于图书馆流通数据的分析主要从以下 4 个方面开展: 1.1 利用统计学概念分析借阅数据 制定若干统计指标对图书馆流通数据进行频次分析是最常见也是最简便的方法,且统计结果具有一定参考价值。如对图书馆流通数据中的宏观人次、书次指标进行统计,可以了解馆藏利用和读者用书的总体状况;对个人借书、单本图书借阅指标进行统计,能够揭示不同读者借阅特点和各类图书的利用率;对高校范围内(非)出版物的引文进行统计,可以
4、直观得出本馆馆藏对校内读者的满足率3-5。 1.2 采用数据挖掘技术进行读者需求分析 大多数图书馆管理系统都是事务处理型6,主要应用于日常业务操作,而数据仓库是分析处理型,能够从无序数据流中挖掘出读者和图书馆员感兴趣的信息:如建立一种基于模式识别中 Mercer 核聚类算法的自动分类和统计分析法,按照中图法 22 个大类对馆藏图书类型和借阅记录进行量化编码,实现读者群分类以及对读者借阅文献类型、流量进行实时监测和统计7;或建立事务数据库,基于 Apriori 算法8-9、改进算法 FP-Growth10、邻接矩阵11等挖掘图书借阅数据的关联规则,进而构建各学科书籍之间的关联度以及读者对图书信息
5、资源的借阅模式312-14。 1.3 利用聚类法对读者和图书进行细分 有学者利用 Clementine 两步聚类模型对高校读者进行聚类分析,将其分为积极型、一般型和消极型 3 类15,或利用系统聚类算法建立图书馆读者细分模型16-17,并针对不同类型的读者开展个性化服务,如制定不同借阅规则、赋予不同借阅权限;或利用 K-means 算法分别对图书和读者进行了聚类,从中分析图书的借阅规律、读者借阅图书的某种倾向及读者是否活跃,从而制定出相应的决策,以便有针对性地丰富馆藏资源和优化馆藏布局,并为图书馆开展个性化服务提供参考18-19。 1.4 借鉴情报学评价指标分析流通数据 由美国学者 Hirsh
6、 J 提出的 h 指数最初用于评价科学家个人的学术成就20,随后经过多位学者在实证研究和理论分析基础上进行扩展和延伸,h 指数被成功应用到学术期刊评价、学术机构评价和专利质量评估等方面21-22,而 h 指数的思想与方法在图书管理中也值得借鉴。国内有学者利用评价指标 h 指数分析图书借阅数据,统计分析读者群 h 指数与图书集合 h 指数,揭示不同读者群的借阅活跃度、不同图书集合的核心读者以及不同读者群的核心图书,客观反应图书利用状况和读者借阅情况,体现图书集合和读者群的个性化特点23;由于 h 指数具有测算时间区域的敏感性,还可用于监测图书集合随时间变化其借阅指标的波动情况24。 以上用于流通
7、数据分析的方法各有利弊:基于统计学的频次排序法虽然能够揭示最热门图书和读者信息,但图书副本数、新旧程度、排架4位置、读者借阅权限等因素都会干扰统计结果,且无法在图书集合或读者群之间进行客观比较;利用数据挖掘技术、聚类算法和关联分析挖掘读者借阅模式、不同学科图书间关联以及细分读者类型等,对于图书馆员的技术背景、操作规范上有较高要求,结果受人为参数设定影响较大,且不够直观;而借鉴 h 指数对图书借阅数据进行分析,将图书集合和读者群视为评价对象,客观比较图书集合和读者群之间差异,且对特定时间段的波动较为敏感,但其在馆藏老化进度、剔旧选择、排架优化等管理方面难以提供建设性意见,所以希望找出操作简便、通
8、用性强,同时具有直观性与客观性的分析方法。 2 情报学基本定律横向移植的可行性分析 笔者认为,图书与期刊文献作为信息和知识的载体,在利用与传播的过程中具有相似的特征:随着新知识的涌现,期刊文献与图书普遍存在老化现象,文献的老化可以根据利用率和被引频次来测算,图书的老化则可以通过借阅频次和趋势来反映,此外,同被引聚类分析是把若干文献看作是具有相同属性的集合,中图分类法也是将主题相似的图书归为一类;读者与文献同样也具有相似特征,读者每次借阅的图书可以反映出借阅倾向,则图书可看作是读者借阅行为的基本元素,而文章所提供的关键词能够体现文章主体思想,则关键词可看作是文章的基本知识单元25,关键词具有词耦
9、合与词共现现象,那么可以假设图书借阅也有对应的图书耦合与图书共现情况,所以我们认为适用于文献信息的相关定律在图书借阅中也可参照借鉴,甚至可以建立适用于图书的老化定律、学科图书半衰期和图书普赖斯指数、馆藏图书滞架指数、图书集合5h 指数、读者群 h 指数、图书借阅耦合/共现模型等分析方法和评价指标,为馆藏图书管理、读者需求分析与服务提供新的解决思路。 3 基于图书被借的指标研究 3.1 图书老化规律研究 图书馆大部分馆藏文献是在逐渐老化的,其利用率极低,这主要是图书馆文献对读者而言缺乏新颖性、针对性和实用性造成的,老化图书不仅占据了图书馆有限的阅览空间,加大了管理成本,而且给读者查找图书带来不便
10、,甚至影响到了图书馆的工作效率与窗口形象,所以及时剔除老化文献、吐故纳新是保持图书馆旺盛生命力的重要环节。图书文献的老化可以利用绝对流通量、平均利用率等指标来测度,但以单本图书为研究对象或把所有图书均一化看待的方法容易造成唯新是从的现象,而根据文献 26 的研究结果26,每种馆藏图书从入藏至完全失去使用价值时的平均借阅次数 S=K/b,K 表示抽样当年每种图书的利用次数,b 为一常数,可见馆藏图书利用率与统计当年每种图书的利用次数正相关,所以频繁采购同类型、相似内容图书是促进图书老化的重要因素之一。笔者认为只有研究不同类型图书的老化趋势与特点,优化采购配置,才能真正提高高校图书馆的文献利用率。
11、 3.2 学科图书半衰期 1960 年,巴尔顿和开普勒提出了文献情报的半衰期概念27:某学科或专业现今仍在利用的全部文献中较新的一半是在多长一段时间内发表的(共时半衰期) ,与该学科一半文献失效所经历时间相当(历时半衰期) 。也可借鉴文献半衰期的概念定义学科图书半衰期:特定统计时间段6内,某学科或主题图书集合仍在流通(包括借阅与归还)的全部图书中教新的一半是在多长时间内出版的(共时半衰期) ;某学科或主题图书集合一半图书失去使用价值,即不再流通所经历的时间(历时半衰期) 。并且可以利用作图法(所有测试数据均取自于北京大学医学图书馆 Unicorn系统) ,以某学科图书出版年为横坐标,统计时间段
12、内被借阅累积频次或累积百分比为纵坐标,绘制学科图书共时半衰期图(图 1) ;以图书被借阅年代为横坐标,统计截止时间之前被借阅累积频次或累积百分比为纵坐标,绘制学科图书历时半衰期图(图 2) ,其中累积百分比达到 50%的点所对应横坐标,即为半衰期观测点,从图 1 和图 2 可以大致估算出 R36病理学类图书的半衰期为 8 年。1 图 1R36 类图书共时半衰期图 1 1 图 2R36 类图书历时半衰期图 1 3.3 图书普赖斯指数 普赖斯指数是度量文献老化速度与程度的指标,在文献计量学研究中,普赖斯将被引文献分成有现时作用的文献和档案性文献,前者是指文献在其出版的 5 年内被引用,后者则是指出
13、版 5 年后仍被引用,现时作用的文献在总文献中的比值即为普赖斯指数,可见普赖斯指数越大,该学科文献老化越快。借鉴普赖斯指数的机理,定义学科图书普赖斯指数:某统计时间段内某类被借阅的图书(如 R4 类图书)中出版不超过 X年的图书数量占全部被借阅图书的比例。其中 X 的确定,应以特定图书馆某统计时间段内所有流通的图书为大样本,统计较新的一半图书的最早出版年代,则当前统计时间与其差值为 X。该指标还适用于其他图书集合,如特定出版社的图书、特定作者出版的图书等。 73.4 馆藏图书滞架时限 随着馆藏图书老化,图书的利用率和借阅量降低,这不仅占据了有限的借阅空间,而且增加了管理成本和难度,故大部分高校
14、图书馆都会定期进行剔旧工作,但剔旧并不完全等同于剔除陈旧或破损的图书。美国图书馆专家特鲁斯威尔提出了藏书利用的二八法则:在图书馆的全部藏书中大约有 20%的图书能够满足近 80%读者的需求,而其余 80%的图书仅能够满足 20%读者的需求。因此,剔除利用率低的图书才是馆藏剔旧的重点,而研究表明,滞架时限是衡量馆藏利用率和剔旧数量的最佳指标28。滞架时限指的是单本图书最后流通时间(借阅日期或还书日期)与统计截止日期之间的差值,默认图书借阅时限为 30 天,并不可续借,滞架时限的统计区间为 011 个月(如表 1) 。 3.5 学科图书 h 指数 h 指数是 J.E.Hirsh 于 2005 年提
15、出的一项旨在评价科学家个人绩效的指标,其定义为20:将科学家 S 发表的论文按照被引次数从高到低的顺序排列,相同被引次数的论文具有不同的序列号,当且仅当前 h 篇论文每篇论文的被引次数至少为 h,同时第 h+1 篇论文的被引次数小于h+1 时,则科学家 S 的 h 指数值为 h。通过上文的可行性分析,我们认为特定类型的图书集合也可以有“h 指数”:将某时间段内某主题图书(如中图法 R322)按照借阅频次进行排序(多副本图书采用借阅频次/副本数的值作为的相对借阅频次) ,相同借阅次数的图书具有不同序号(按照出版时间倒序排列) ,形成图书数量与借阅频次的数据序列,参照 h 指数原定义,当且仅当前 h 本图书每本借阅频次至少为 h,同时第 h+1 本书借阅8频次小于 h+1 时,该主题图书的 h 指数为 h。如表 2 所示,统计时间段内,某类图书至少有 4 本被至少借阅 4 次,则该类图书的 h 指数为 4,那么可以确定该类图书中借阅频次大于等于 4 的为核心图书。此外,时间段可以设定为年度、学期、月份,从而揭示特定时期的借阅需求特征,甚至可以制定图书与时间的关联规则,在图书管理系统中进行荐阅与提示。