1、构建以服务为核心的数字图书馆,北京拓尔思(TRS)信息技术有限公司数图行业总监高建国2004-11-15,内容提要,TRS对数字图书馆理解TRS数字图书馆解决方案TRS的优势,数字图书馆建设误区,唯数字化论知识导航、知识服务才是核心唯软件论机制、人员、资金进一步的应用扩展并深化服务唯标准论真正的核心在于数据,数字图书馆的基本特征,决定数字图书馆成败的因素,案例:美国Mellon资助的大部分数字图书馆项目都以失败告终Make of America (U. of Virginia)Early American Fiction (Cornell, U. of Michigan)国外建设数字图书馆的经
2、验教训建设的焦点放在特藏文献建设中建设目标不是为了满足实际需求,想当然地认为“建设好数字图书馆,用户自然会来”,关于数字图书馆建设的建议,使用第一在设计与开发内容时以用户为焦点形成一定规模的服务体系控制规模,循序渐进组织与制度的保障,典型需求总结四类,特色数据库的建设学位论文服务系统学校文库专题文献库数字资源的重组学科教学参考门户电子期刊导航库数据库导航库资源整合的知识服务,在整体服务体系内与兄弟院校共建、共享资源,数字图书馆关键技术,资源的开放描述和组织元数据(DC),RDF,XML/DTD,URI(DOI, OpenURL)异构信息资源的互操作HTTP,Z39.50,OAI,Web Ser
3、vice跨语言技术海量智能快速检索技术知识发现、知识挖掘和知识服务,核心技术 TRS全文检索技术,Native XML 检索引擎,TRS 检索服务器V5 是国内外第一个核心支持Native XML 的全文检索引擎实现XML元素级的文本检索对于不同的行业应用,可以定制专用应用支持全息索引技术,TRS集群服务器(TRS Cluster),随着文本数据量的增加,比如大几十G或几百G以上,就必须实施分布式检索和负载均衡方案。TRS集群服务器是架构在多个物理TRS全文数据库服务器之上的分布式管理系统,它支持数据分布以及负载均衡两种基本分布方式,并支持两种方式的组合运用。,TRS集群服务器的几大特点:,实
4、现海量数据的无限扩展。实现高并发用户的高性能访问。实现混合型搜索,满足更加个性化的检索需求,如按字、按词等。实现高可靠性的检索服务(无单点故障)。,TRS集群系统结构示意图,核心技术-TRS知识挖掘系统,先进的中文分词技术智能标引:自动分类自动摘要自动关键词提取知识的积累知识词典智能服务智能聚类相似短语检索拼音检索自然语言检索相似性检索,核心技术TRS 搜索引擎,TRS数字图书馆解决方案,数字资源存储数字资源采集加工数字资源发布服务,TRS数字图书馆解决方案的目标,对内为图书馆员提供数字图书馆建设平台数字资源加工、重组与管理协同工作流程控制与内部信息交流网站建设对外向读者提供更好的服务(终极目
5、标)资源整合服务,方便地找到资源信息推送、个性化服务交互咨询互动,一体化的内部协作平台,Java J2EE/EJB 中间件服务器,TRS WCM Application Server,XML、开放接口,内容采集编审加工挖掘发布,Job Server,Work Flow Server,Publisher Server,工作流驱动,版本控制,中文语言处理,协作通信平台,集中模板管理,媒体类型接口,全文检索,用户认证、安全,外部网站,内部门户,办公平台,通讯平台,其它应用系统数据交换,二次开发应用、统一用户认证,第三方产品集成,TRS 信息雷达,SOAP,基于Web的加工、管理平台,0 客户端系统所
6、有操作通过浏览器完成,不需要额外的客户端,减少培训费用。,多语种、国际化,基于UNICODE内容存储的系统,可以支持各种语种的内容管理,包括中文、英文、日文、法文、阿拉伯文等等全球的各种语言,为你提供全球化的解决方案。,同一频道内,混合语种采编,使用不同的语种描述不同的频道,同一篇文档内采用多种语种进行混编,内 容 创 作,在整个编辑过程中能够保持所见即所得。简化编辑过程,提高工作效率。,可以直接在浏览器中修改字体、字号,对齐方式,插入图片、表格、链接等等HTML元素,充分实现图文混排功能。支持从Word/Excel/WPS中原样粘贴图文、表格,集成中文自动摘要技术,瞬间完成文档摘要处理。,发
7、布前,提前预览发布效果,结合TRS内容检索系统,提供知识背景库功能,辅助创作。,内容属性-元数据的加工,灵 活 可 控 工 作 流,在线编辑的工作流,直观简单的配置界面。在Web上制定工作流程,配置工作节点以及人员,决定流程路径的操作。可以结合邮件、在线即时信息,手机短信等协助提醒。,工作流节点的XML描述表示方式,多 种 类 型 的 沟 通 方 式,在线即时信息,在线会议室,电子邮件,手机短信息,共享日程安排,TRS Web Content Management 5.0,权限模型,站 点,查看,增加,删除,.,频 道,查看,增加,删除,.,文 档,查看,增加,删除,.,对象权限(可定义),用
8、户,组织,角色,组合 A,组合 B,组合 C,自动知识挖掘,自动分类自动摘要自动关键词提取,一体化的知识服务门户,读者需要怎样的服务?多途径发现资源,获取知识对于学校而言,基于学科的知识门户 依照学科提供整合浏览方便的一体化检索知识体现-主题导航与链接,针对期刊的知识服务示例,元数据和全文检索,访问者当前所面对的访问环境,面向教学与科研的服务门户,专家学者库,学位论文服务系统,数据库、期刊等导航库,学科信息门户,学科导航系统(网站),虚拟参考咨询,特藏文献数据库,电子图书,期刊单篇,音视频,网页,学位论文,其它基础文献,我的数字图书馆,信息按关键词定制,信息按分类定制,个性化服务,关于数字图书
9、馆的未来,一纵-形成区域化或行业化的资源共建共享体系 一横-成为数字化校园的亮点,进一步与教学信息、科研管理信息融合,成为信息服务中心,数字图书馆与数字化教育,数字化教育资源一般以课目为中心,但是其中各组成部分也可以是相对独立的学习资料或数字化 objects。,图书馆为数字化教育资源提供组织、检索和使用的平台与工具,TRS公司的核心竞争力,拥有自主核心技术和知识产权,研发力量强大在信息检索、知识挖掘和中文信息处理方面具 有国内外领先的研究能力和研究成果承担多项国家863项目获得国家科技进步二等奖2001年国家推荐的12个优秀软件产品之一拥有UNDP援建的中文信息处理研究中心和国内外大学、研究
10、机构建立了长期合作研究关系清华大学(中文智能语言处理)香港中文大学(信息检索)美国Virginia Tech.(数字图书馆和信息检索),“TRS has the best technology in Chinese Text Retrieval area in China. It is one of the strongest software development firms in China.” -Dr. Kaifu Li, VP of Microsoft, and formerly Managing Director of Microsoft Research Institute.,TRS获得国家科技进步奖,TRS公司的核心竞争力,拥有1500家企业级用户,市场和行业知识丰富100%的省市信息中心选用TRS90%以上的部委信息中心选用TRS超过100家媒体业用户,国家支持的十大新闻网站中7家选用TRS中国主要的世界五百强企业选用TRS,如中国银行、中粮、五矿等,大型企业如华为、联想、宝钢等选用TRS超过400家主要的大学和公共图书馆选用新华社、中国新闻社、国家统计系统、国家技术监督系统等多个行业全系统推广北京、上海、广州、深圳等主要城市的电子政务系统选用TRS,TRS公司的核心竞争力,以客户和市场为中心,提供高品质的专业服务遍步全国的技术支持网络,谢谢!,