1、数字化 图书馆 解决方案 1 图书馆 信息化概述 目前在 Internet 和信息技术的不断发展时代,对高等院校的教学与管理带来了深远的影响,网络远程教学、多媒体应用、数据查阅、信息管理等应用已经成为高校教学与科研重要的一环,并逐步与学校的 教学、服务与科研 融为一体 。高校校园网建设、网络中心的规模与数字图书馆已经成为全面衡量高等学校信息化水平的三项重要的指标。图书馆 除向全校师生提供教学、科研 以及数字化信息服务外,还面向社会为众多单位提供培训及咨询服务。 随着计算机应用的发展,图书馆服务器和数据量急速增加,管理的复杂程度 越来越大。 数字化图书馆是一种运行在高速宽带网络上的、可跨库检索的
2、海量数字化信息资源库群,对有价值的图像、文本、语音、影像、影视、软件和科学数据等多媒体信息进行收集,进行数字化加工、存储和管理,实施知识增值,并提供基于网络的电子存取服务 。 数字图书馆在本质上就是一个集数据库应用平台、信息资源电子商务平台与资源数字化加工服务平台于一体的巨大数据仓库,以互联网为平台,面向 高校内部广大师生和外部互联网 用户提供基于内容的服务。作为图书馆发展的方向,数字图书馆应以统一的标准和规范为基础、以数字化的各种信息为底层、以分 布式海量资源库群为支撑、以智能检索技术为手段、以电子商务为管理方式,以宽带高速网络为传输通道,将丰富多彩的多媒体信息 及时的传递给用户 。 2 图
3、书馆系统 概述 数字 图书馆系统是一个基于 Internet/Intranet 分布式环境、能够针对用户的需要提供信息服务的分布式海量信息系统,其基本功能包括: 1. 提供用户交互式信息浏览、查询,具有基于内容和知识的检索引擎。 2. 支持连续媒体的网络传输,数字化图书馆所支持的数据类型包括具有时间基的连续媒体信息;支持多媒体信息流的同步和集成,建立先进的同步模型和同步机制保证静态信息 流的空间同步和动态信息流间的时间同步。 3. 建立通用、标准和规范的数字化图书馆系统结构模型,提供数字化图书馆系统有效的资源管理和控制功能。 4. 支持动态服务质量( QoS)管理机制,系统可以根据用户请求、系
4、统检测和资源均衡需求,动态地调整用户端的 QoS 参数。 5. 数字化图书馆系统的中心服务器和媒体服务器应该具有可伸缩的体系结构,根据资源的使用情况,采用适当的负载平衡策略,把信息存取和网络传输的负载均衡到相应的机群中,同时,系统具有信息存储和网络带宽的可扩展性。 6. 系统具有透明性,信息的重组在一定条件下是可见的,但是对用户 是透明的。 7. 系统具有可移植性,具有可运行特征的媒体信息在不同的运行环境下都可以再现 图书馆 的 主要 组成部分: 1. 图书馆管理系统 2. 数据库 3. 电子 期刊 库 4. 电子 图书 库 5. 硕博论文 库 6. 自建数据库 :论文、期刊、图书、声像、教参
5、 等等 7. 音视频资源管理 系统 8. 网络接入认证 系统 9. 门户网站 10. 博客服务 11. 论坛服务 12. FTP 系统 13. 等等 因此 , 可以说建设数字图书馆的关键技术在于存储系统,一个良好的存储系统解决方案应能适应图书数据的海量存储和不断增长,同时能够满足当今网络环境复杂性和扩展性的不断提高。 这样的目标无疑对存储系统的要求很高,既要求高可 用性、高可靠度和大容量,还需要低成本和易安装管理。 3 图书馆信息系统需求分析 数字化图书馆就是将图书馆文献信息数字化,并利用计算机技术储存、查询和发布,以满足当地或远程读者对文本、图像、声音等不同种类的信息需求。 数字图书馆 的显
6、著特点就是: 各种信息(文献,期刊,图书,报纸,论文,音乐,视频等)的数字化; 海量数据的存储和管理; 对数据的有效访问和查询; 数字化资料在网上发布和传递。数字化图书馆的开发与建立是计算机、通信和网络技术、海量存储技术以及多媒体技术有机结合的产物,并且还引进了大量数 据库技术及概念。 图书馆 存储系统 需要存储以下内容的数据信息: 1. 数据库: 一般采用 MS SQL 和 Oracle 数据库,数据量不大,一般在几 GB 以内,且数据增量不大。 2. 电子图书 : 以文本文件存储和读取为主, 文件大小一般为32KB-64MB,存在形式为静态, 容量增长小于 5%每年; 3. 视频资料信息
7、: 包括电影资料的 VCD/DVD 形式, MPEG2/4 形式,以大文件形式存储,流媒体读取为主 .文件大小一般为 80MB -5GB; 4. 电子期刊 : 以文本文件存储和读取为主,文件大小一般为32KB-64MB,存在形式为动态增长, 增长速度为线性定值; 5. 其他电子信息资料 : 包括音频资料 ,硕博论文,自建资源库, 教参等 等,以文件方式存储,以流媒体或文件方式读取,文件大小一般为 32KB-40MB 在 图书馆中,数据库的管理和操作是最核心的问题,所有的电子图书、期刊和 多媒体数据全部存放在大容量存储系统中,存储系统是整个数字图书馆的支撑点 。 根据图书馆中数据的特点 来分析数
8、字图书馆的数据应用特点 , 数字图书馆 大致 可划分 为 以下 两种类型的数据: 1. 数据库 类 型 数据 : 图书馆管理系统和外购 商用 软件系统以 及 自 建系统的数据库 。 需要提供高速数据检索和查询服务 ,数据 访问速度要求高 。 需要提供 7*24 小时 高可靠运行 2. 文件 型 数据: 包括电子图书,期刊,论文,自建 数据 资源, 影视频资料文件等等。 需要提供大容量数据存储空间。 大量数据处于静止状态,少部分数据在相应时间内处于活跃状态。 数据访问速度一般没有严格要求。 随着 图书馆数字化进程的逐步深入,图书馆的 应用系统越来越多,环境也变得越来越复杂,这无形中增加了图书馆管
9、理人员管理系统的难度。同时,随着应用系统的不断增加,数据也 相应大量增长 , 这就给原有的存储系统提出了更高的要求。 平滑的提供更大的存储空间 提供更快的响应 速度 提供 更大的数据吞吐能力 总体来讲, 图书馆 信息化的关注点在于: 如何满足业务连续性要求 关键系统 高性能 关键 服务不停顿 关键 数据不丢失 如何解决数据容量迅速增长带来的成本、管理等问题 3 图书馆信息系统推荐方案 3.1 设备选型原则 存储系统 是 数字图书馆 的核心基础,其性能的优劣,质量的好坏,对全局的影响关系重大。在存储系统平台的选型上应充分考虑系统应用的水平和数据处理数据量的大小,综合总体系统设计的方针,予以慎重选
10、择。 在选择存储平台时,要考虑的因素很多,需要根据实际情况决定,一般来讲,以下特性是必须要考虑的 : 存储系统的 IO 性能 系统未来的可扩展性 存储系统的高可用性 存储系统对 各种 服务器操作系统的兼容性与标准 系统管理员的可维护性 3.2 方案综述 数字图书馆中需要存储的数字资源大致分为以下几类: 图书馆管理系统数据库 图书馆购买 的 各类 商业软件的 数据库 图书馆购买 的各类电子化的图书和期刊数据 图书馆 自建 资源库 根据对图书馆信息化系统的 需求分析 , 可以总结出图书馆核心应用的特点如下 : 数据库 : 是整个图书馆业务系统的核心 数据类型:数据库 (SQL, Oracle 等)
11、 性能要求:同时访问人数 较 多,并发性能要求 较 高 可用性要求:不能停机 数据量:几百 MB 到几个 GB 图书馆应用系统数据: 数据类型:文件 (文本,图像,音视频) 性能要求:同时访问人数较少,但传输数据量大,带宽要求高 可用性要求:不能停机 数据量:很大且增长很快,从几 TB 到几十 TB 根据性能和可用性的分析,可以得出相应推荐的存储系统架构如下: 应用 数据类型 性能 容量 数据保护 典型存储架构 FC SAN iSCSI 数字化 图书馆管理系统(采、编、流) 数据库 高 低 高 优选 自建资源系统 数据库 /文件 中 高 高 推荐 可选 硕 博论文 文件 中 高 高 推荐 可选
12、 期刊 文件 中 高 低 推荐 可选 电子图书 文件 中 高 低 推荐 可选 影视频资料 文件 中 高 低 推荐 可选 以下我们分别阐述 DCN 面向 高校数字化图书馆 的信息基础架构: 数据集中存储方案 备份与恢复 解决方案 3.2.1 数据集中存储方案 针对高校图书馆信息化 应用系统的存储需求,建议采用 FC SAN+IP SAN 的存储架构: 将 图书馆的图书馆管理系统数据库、各类外购商业软件数据库 系统 以及自建资源数据库 等核心 数据库 应用通过 FC SAN 进行连接,实现高性能、高可用 的存储; 同时将一些 应用如 门户网站 、 FTP 等通过 IP SAN 进行连接,实现低成本
13、、高效率的存储。 整体架构从以下几方面综合设计,以满足业务连续性的要求: 存储系统的高可用性:经过用户验证达到 5 个 9 可用的存储系统 DCN CS4系列 存储网络 SAN 的高可用性:采用双光纤交换机组成冗余 SAN 网络,配合主机上的双 HBA 卡和多路径管理软件( DCN PowerPath),实现数据访问通道的高可用; 图书馆 信息化系统集中存储结构图: 本次系统建设的最终目标是为高校图书馆提供一套具有国际 先进水平的电子化图书馆信息平台,提供具有全球最新科技水平的 SAN 存储区域网络存储平台-DCN CS4,为 高校 图书馆未来的高速发展提供坚实的技术保障平台。 为保证服务器到
14、 SAN 网络的全冗余性连接,每台服务器均配置 2 块 8Gbps FC光纤通道卡,分别连接到 SAN 网络中的 2 台光纤通道交换机上,即使其中的一条链路发生故障,服务器仍然可以通过冗余的光纤链路访问磁盘阵列上的数据,从而达到系统的 7*24 小时不间断运行。 本次存储系统建设采用 Open SAN 体系结构搭建 高校 图书馆数据存储网络,在整个 SAN 网络中,所有设备 之间的网络链接均采用全冗余链接,确保整个存储系统系统具有良好的链路冗余能力,为 高校 图书馆信息系统提供不间断运行的存储网络交换平台。 由于电子化图书馆中的数据绝大部分都是文本文件和图片及音视频资料文件,少部分数据是数据库
15、数据,则在进行图书馆存储体统磁盘规划时,应充分考虑磁盘分级存储管理,提高了磁盘利用率,同时也为图书馆节省了大量的资金投入。 将访问性能要求高的数据库文件保存 在 FC 磁盘上 将访问性能要求不高的文件类型的数据 保存在 SATA 磁盘上 本方案具有以下特点: DCN CS4 99.999%的高可用性 DCN CS4 结构提供最高的可用性。所有组件都实现全面冗余并可热交换。全光纤通道技术允许客户随时随地扩展其存储容量 ,可以在不关闭应用或者现有存储能力的情况下,添加其它驱动器或者驱动器架( DAE,磁盘阵列机箱)。 DCN CS4 系统拥有各种先进的数据保护功能全局热备用、全面冗余的组件、通向光
16、纤通道磁盘驱动器的双重冗余路径、磁盘扇区嗅探校错技术( Sniffer) 、断电高速缓存数据写入硬盘、端 -端数据奇偶校验以及一致性操作环境所提供的其它独特功能,所有这一切都是 DCN CS4 享有盛名的原因所在。这种层次的数据保护 应该是所有客户的要求,也是任何其它供应商所无法满足的。 中端存储配置发展很快,且变得日益复杂,这是因为较大的系统具有更多的驱动器,并且磁盘驱动器的密度越来越大。 UltraPoint 是新一代的 DCN CS4 技术,随着客户将系统向新级别的扩展,它可确保 CLARiiON 继续提供最高级别的可靠性和可用性。 UltraPoint 技术将新的点对点光纤通道 DAE
17、 设计与 FLARE 操作环境中新的故障检测和隔离功能结合在一起。 UltraPoint 将后端故障探测和隔离的精确度具体到了单个驱动器的级别。这一技术将使 DCN CS4 系列能够: 在单个磁盘驱动器级别执行故障检测和隔离操作,因此可以采取纠错措施。 在驱动器进入联机状态之前检验驱动器 在加电时,在更换驱动器时,以及在增加容量时。 一体式分层存储 使用 DCN CS4 存储系统, 高校图书馆 可以整合大量不同类型和业务价值级别的数据 ,通过 选择满足特定需要的驱动器选项 , 实现在一个系统中提供多种性能/成本 级别的灵活性。 存储层次 驱动器类型 适用环境 第 1 层 146GB、 300G
18、B、 450GB 15kRPM光纤磁盘 并发访问量大的图书馆管理系统 第 2 层 400GB 10kRPM 光纤磁盘 检索系统、 经常访问的 文件类型数据 (如近期的电子期刊等 ) 第 3 层 1TB 7200RPM SATA 磁盘 图书馆文件类型数据文件 (不经常访问的) 第 4 层 1TB 5400RPM SATA 磁盘 图书馆文件类型数据文件 (长期保存,归档) DCN PowerPath 软件 DCN CS4 网络存储提供 PowerPath 软件,它提供了连续的数据可用性,并针对主机环境实现性能优化。 PowerPath 是一种常驻服务器的、性能和信息可用性增强路径管理解决方案。 P
19、owerPath 面向开放式服 务器平台集成了自动故障切换、动态负载均衡和信息存取优化能力。 PowerPath 采用后台工作方式,确保各种应用保持连续可用。PowerPath 的自动故障切换和动态恢复特性允许在服务器和存储间数据路径发生故障时,将数据存取分散至备用数据路径中。这样应用程序就绝对不会因为适配器、电缆或通道控制器的单点故障而出现中断。 PowerPath 运用自动负载均衡特性,对多条 I/O 流开展智能化管理,并通过在多条路径之间自动调整工作负荷的方式实现性能优化。这种特性确保不会出现某条路径负载过重,而其它路径带宽又没有得到充分利用的 情形,避免 I/O瓶颈的出现。 PowerPath 确保 图书馆关键业务数 应用随时处于运行状态,赋予它们以最高可用性和最高性能,确保它们获得业界领先性能存储系统 DCN CS4的所有优势。