CNKI数字资源使用分析系统.ppt

上传人:99****p 文档编号:3680995 上传时间:2019-07-05 格式:PPT 页数:38 大小:23.38MB
下载 相关 举报
CNKI数字资源使用分析系统.ppt_第1页
第1页 / 共38页
CNKI数字资源使用分析系统.ppt_第2页
第2页 / 共38页
CNKI数字资源使用分析系统.ppt_第3页
第3页 / 共38页
CNKI数字资源使用分析系统.ppt_第4页
第4页 / 共38页
CNKI数字资源使用分析系统.ppt_第5页
第5页 / 共38页
点击查看更多>>
资源描述

1、数字资源使用分析系统介绍,内容,图书馆数据挖掘的意义数字资源使用分析系统介绍未来构想以清华大学使用日志为例,图书馆“大数据”时代来了!,随着大数据时代的来临,图书馆也不可避免的受到了大数据信息浪潮的冲击。科学研究的变化要求数字图书馆大数据的支撑。越来越多的学科领域完全建立在大量数据的基础上,比如系统生物学、宏生态学、基因组学等。用户信息素养的变化,用户服务要求越来越个性化、学科化,要求图书馆从大量的数据中分析潜在的价值,从而决定着大数据时代的图书馆的发展水平及方向。陈传夫 大数据时代的数字图书馆2012年中国图书馆年会,图书馆的“大数据”,数据挖掘的意义,1、实现针对不同读者的个性化服务以“资

2、源”为核心以“读者”为核心跟踪服务、精准服务、知识关联服务、宣传推广服务2、提供研究动向以及研究热点的变化分析学科研究热点的动向掌握科研人员的研究进展3、为资源采购部门提供资源评价的建议分析资源的使用情况,评估性价比收集资源访问历史,预测读者关注的热点评估资源建设的合理性,数字资源使用分析系统介绍,一、系统开发背景,近几年,随着图书馆购买数字资源的比例逐年上升,数字资源建设从高速增长期进入稳定增长期。美国研究图书馆协会(ARL)统计显示:美国研究型大学图书馆的数字资源经费占文献总经费的比率在2010-2011年度就已达到62.47%,超过了印本资源。图书馆发展电子馆藏工作的重心已经从最初的资源

3、引进转向了有效的数字资源使用评估。,一、系统开发背景,随之带来了一系列问题:图书馆的资源配置是否合理,如何使用有限的经费选购日益增多的数字资源?如何将数字资源与学科建设相结合,使引进的数字资源得到有效利用?如何保证数字资源的合理合规使用?这一系列的问题都涉及到对数字资源的使用评估。,一、系统开发背景,图书馆数字资源使用日志分析的难题:目前各个数据库的统计标准和计量方法不同,导致不同数据服务商提供的统计数据无法比较;缺乏在线行为统计的说明,导致统计数据难以理解;数据库商提供的使用数据的真实性及有效性无从判定,统计数据无法真实反映读者需求的问题。,二、系统简介及网络架构,1、 系统简介通过技术方案

4、,采集机构范围内访问数字资源的底层非结构化的web日志,对数据进行清洗、会话识别及分析,挖掘读者使用数字资源的行为数据,为图书馆提供客观真实且遵循统一标准的数据库访问日志,便于图书馆对数据库的使用价值进行客观分析评估,科学合理选购数据库,从而为图书馆采购决策工作及挖掘读者使用需求提供支持。,2、系统设计目标1)一站式统计图书馆采购的所有中外文数字资源的使用日志,掌握资源真实使用情况,为图书馆资源采购提供数据支撑。2)监测读者恶意下载行为,保障数字资源的合理合规使用。3)通过对读者检索行为、浏览行为、下载行为等数据的挖掘,把握读者真实需求,为图书馆开展个性化、学科化服务提供数据支撑。,二、系统简

5、介及网络架构,3、系统难点及解决方案难点:本系统中涉及到Web日志数据的统计和分析,需要从海量的互联网访问日志中采集出所有读者访问数据库的使用日志。解决方案:结合各高校的网络环境的现状,采用有针对性的几种实施方案,将数字资源的访问流量从海量的网络请求中分离出来,是本统计系统获取统计数据的基础。,二、系统简介及网络架构,二、系统简介及网络架构,a) 镜像模式 在交换机镜像端口,增设监控服务器,截获出口网关的数据包,作存储、统计。,二、系统简介及网络架构,a) 镜像模式优点:1、不需要更改网络拓扑结构,工程量小2、日志获取完整度高、丢包率低缺点:1、涉及部分隐私问题解决办法:将服务器、系统操作权限

6、交给高校网络中心统一管理适合:此模式适合无法改变任何架构,对用户访问可控性要求低时使用。,二、系统简介及网络架构,b) 支路模式(分离DNS)增设网络出口,对目标文献服务器访问请求的发送、接收由监控服务器承担。,二、系统简介及网络架构,b) 支路模式(分离DNS)优点:1、隐私问题涉及少,只需监听数据库的使用日志2、日志详细度高,有利于对使用数据深度分析缺点:1、需要较小程度更改网络拓扑结构,对IPT或DNS指向进行修改,存在DNS后续维护问题。适合:此模式适合可调整DNS或IPT时使用。,二、系统简介及网络架构,系统功能设计,三、系统功能设计,多维度的数据统计和分析,三、系统功能设计,1、数

7、据库管理模块1) 数据库列表:管理图书馆已订购数据库的名称、域名、对应IP地址等信息。2)数据库域名及IP地址检测:系统后台检测数据库的域名及IP地址是否发生变化并推送提示更新。当学校图书馆采购了新数据库时,可以到系统后台申请添加数据库的域名及IP地址等信息。2)院系IP地址列表:登记院系的IP段地址信息。,四、系统主要功能模块及页面展示,四、系统主要功能模块及页面展示,2、日志统计分析模块1)数据库访问维度:可以查看和分析各个数据库的使用数据及不同数据库在不同时间段的使用量。2)资源访问维度:可以查看和分析各种资源的使用数据及不同资源在不同时间段的使用量。3)院系访问维度:可以查看和分析各个

8、学院的使用数据及不同学院在不同时间段的使用量。注:根据以上三种访问维度,按照年、月、日三个时间频度,提供使用数据的查询和分析(包括访问次数、首页访问次数、检索次数、下载次数、浏览次数、故障次数、流量大小)。,四、系统主要功能模块及页面展示,四、系统主要功能模块及页面展示,四、系统主要功能模块及页面展示,3、检索词统计分析模块1) 数据库使用检索词分析:提供不同数据库在不同时间段的热点检索词排名及频次。2) 院系使用检索词分析:提供不同学院在不同时间段的热点检索词排名及频次。,四、系统主要功能模块及页面展示,四、系统主要功能模块及页面展示,4、读者使用行为分析模块1) 读者使用整体统计:根据读者

9、的IP地址提供不同读者在不同时间段的访问次数、检索次数、浏览次数、下载次数等使用数据,并且可以选择多个IP的使用行为数据进行对比分析。2) 读者使用详情日志查询:根据读者的IP地址提供不同读者在不同时间段对不同数据库的详细使用行为。,四、系统主要功能模块及页面展示,四、系统主要功能模块及页面展示,5、流量监控模块1) 设置阀值:针对不同的各数据库设置不同的下载阀值、每个IP最大下载量或流量的上限等。2) 实时监控并阻断:实时监控每个IP及学校整体的使用流量或下载次数,对异常行为发送阻断信息,系统设置里可以选择预警时发短信给管理员。3) 阻断日志查询:支持查询历史阻断使用日志。,四、系统主要功能

10、模块及页面展示,四、系统主要功能模块及页面展示,即将发布,敬请期待!,未来构想:通过大数据和数据挖掘技术,对收集的读者行为数据进行处理和特征提取,准确的把握读者的行为特征和偏好,建立读者需求兴趣模型,从而构建数字图书馆个性化服务系统,为读者主动推送所需要的精准的各类型资源和服务。,下一步规划,下一步规划,案例:清华大学CNKI详细下载日志深入挖掘,分析对象:中国学术期刊网络出版总库分析行为:下载、检索时间范围:2013年7月1日-12月31日分析学科:TOP 3学科材料科学与工程、动力工程与工程热物理、管理科学与工程挖掘目标:热门文献、热门关注期刊、热门关注机构、热门关注作者、热门检索词,热门检索词 TOP 20,清华大学热门检索词,1、材料科学与工程,2、动力工程与工程热物理,3、管理科学与工程,感谢您的关注,同方知网(北京)技术有限公司,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。