1、TRS 搜索引擎解决方案,北京拓尔思信息技术股份有限公司,搜索技术和产品,综合搜索平台的需求分析,海量高效开放精准非结构化,TRS 核心技术,专注于非结构化信息处理主要核心技术信息检索文本智能内容管理搜索和内容管理垂直/行业搜索、企业搜索、互联网搜索内容全生命周期管理,融合互联网搜索和企业搜索,互联网搜索和企业级搜索并非一回事,TRS领导“高端”搜索技术,海量信息处理能力智能化信息处理能力融合互联网搜索和企业搜索的能力查全和查准的协调高安全性、可靠性高端应用伸缩扩展能力,TRS 企业搜索平台和应用,特色数据库采集,对于综合搜索平台而言,更多的是使用该种方式,实现资源的整合与搜索,网页采集,文件
2、系统数据加工采集,支持扫描数据采集,海量信息处理,海量信息处理的基本策略是“分布式”、“集群”、“多服务器”协同。目前在国内只有TRS已经成功在实际客户处成功部署了多服务器集群检索系统,处理数千万以至上亿条记录信息,无论Autonomy, Verity, Baidu, Google 均没有这方面的成功案例新华社多媒体数据库(18T,仅中文就4000万记录)中华人民共和国门户网站(全国各级政府网站数据整合)公安部搜索引擎系统(1.2万网站,约2000万网页),新华社多媒体数据库,全球最大中文多媒体数据库,每天支持1000万的访问次数,User Interface,Windows / Linux
3、/ Unix,数据层资源整合企业搜索引擎应用,TRS DBSERVER,TRS DP,TRS InfoRadar,WebSphere / Weblogic / Tomcat / .Net Platform,TRS API / TRS JAVABEAN / TRS ADO,TRS CDS,TRS WAS,数据存储和检索,在TRS搜索引擎方案中,搜索服务所需的数据及其索引并非像其他搜索引擎以单纯的文件来进行组织和存储,而是采用类似关系数据库的管理模式,以“数据库”、“表”、“记录”、“字段”、“全文内容”及“索引”等机制来对来自不同信息源的不同类型的信息对象予以全面而有序的组织管理,这是TRS搜索
4、引擎优于互联网搜索引擎的一大特点和优势,数据库管理和存储,字段类型,TRS全文数据库支持多种不同类型的字段,它们是:DATE日期型字段NUMBER数值型字段CHAR字符串型字段PHRASE短语型字段DOCUMENT全文型字段BIT二进制型字段,多种格式文件支持,索引模式,按字按词字词混合,混合模式只对具有按词索引属性的数据库的Pharse和Document字段有效全冗余模式 :将公共部分分别在“按词”和“按字”索引中各存一份。优点是检索时直接取各自的索引即可,缺点是索引空间膨胀大半冗余模式 :将公共部分只存储在“按词”的索引中。优点是“按词”检索时可直接取“按词”的索引即可,且索引空间膨胀小;
5、缺点是“按字”检索时要取“按字”的索引和“按词”的索引进行合并,多一次“或”运算零冗余模式 :将公共部分单独存储。优点是索引空间膨胀小;缺点是“按字/词”检索时要取“按字/词”的索引和“公共索引”的索引进行合并,多一次“或”运算,索引技术,零空间膨胀率(-0.21)索引分区技术(参考索引文件)多线程并行运算技术Cache技术(针对近期频繁访问的检索结果),检索功能,48种检索运算符外部特征与正文内容的各种逻辑组合检索位置检索二次检索/渐进检索历史检索词根检索大小写敏感检索概念检索(词典),相关性排序,排序权重计算因素文章的词频命中词出现的位置(标题、第一段、第二段、最后一段),检索技术,自动分
6、库技术:将物理数据库转化为能自动分裂数据库的视图。可对生成的分裂视图进行装入记录和复制记录操作,结果将自动反映到其对应的物理数据库里多库并行检索技术多级Query-CACHE技术基于词以及词频的bi-gram算法索引跳跃式扫描技术,知识检索,词典智能语言检索简繁检索相关词提示拼音检索自然语言检索(Like函数),TRS搜索集群的示意架构,数据库集群服务器示意图,TRS信息资源管理平台,配套产品:TRS全文数据库服务器(TRS Database Server)TRS全文数据库集群服务器(TRS Database Cluster)TRS数据处理工具(TRS Data Processor)TRS关系
7、数据库内容检索引擎(TRS Gateway)TRS内容发布应用服务器(TRS WAS)各产品组合应用可实现异构环境下非结构化信息的采集、存储、检索、控制、发布和服务,并可与主流关系型数据库无缝集成。实现非结构化、半结构化和结构化数据统一管理的完善解决方案。,文本挖掘技术和产品,智能化信息处理,TRS 在业界最早推出实用化的文本挖掘技术,现已发展到4.X 版本,包括自动分类、自动聚类、自动摘要、自动标引、信息过滤和信息提取、相似性检索、短语检索、拼音检索等新华社多媒体数据库、外交部在863、全国搜索引擎和数据挖掘技术学术评测中均居领先地位,是产业界中敢于参加并获得好成绩的代表,体现了TRS在自然
8、语言和智能信息处理研究领域的强大“内功”,智能化分析处理TRS CKM,自动分词自动聚类自动分类/规则分类/混合分类文本相似性检索(自动排重) 跨语言查重自动摘要+主题词标引(自由词+行业主题词)(摘要和标引也可以分开用)(政治)常识校对 信息过滤拼音、同音检索相关短语检索信息抽取,TRS CKM产品描述,国内外第一套成熟的中文文本挖掘技术,文本挖掘是数据挖掘的一个分支,它是进行知识管理的基础和关键技术。TRS CKM 有效结合自然语言处理技术、人工智能技术、知识库以及统计分析技术,实现了商业化应用。在863等多次评测中均名列前茅。,内容管理技术和产品,内容服务平台,内容采集创建,网络信息采集
9、,信息采集网关,多媒体采集,数据交换接口,内部创作接口,电子文档处理,内容管理数据存储,结构化数据,对象数据,非结构化数据,内容挖掘与知识管理服务,自动分类,自动摘要,自动聚类,查重与相似性分析,过滤与知识提取,本地内容管理,本地应用集成,本地内容采集,本地内容编辑,跨媒体发布,个性化服务,版权保护,内容评估,站点管理,电子商务,个人内容桌面,内容协作平台,内容编审,监控统计,用户管理,工作流引擎,协同工作沟通,内容管理架构,内容管理架构,内容采集ContentCapture,内容存储ContentRepository,内容挖掘ContentMining,内容加工ContentProcessi
10、ng,内容服务ContentServices,TRS内容管理主流产品,TRS INFORADAR,TRS GATEWAY,TRS API,TRS DP,TRS CKM,TRS DB SERVER,TRS CDS,TRS WCM,TRS优势特点,(1)异构资源搜索和整合,TRS能搜索各种RDBMS, 文件系统,网页等内容。其他搜索引擎不能。,(2)“安全”的搜索引擎,TRS支持内容安全性控制,特定的人只能搜索特定的内容,其他互联网搜索引擎只能进行普遍性搜索,对内容没有安全性控制。TRS是一个基于“内容安全”的搜索引擎,(3)支持数据实时更新的搜索引擎,TRS支持对数据的实时更新,其他互联网搜索引
11、擎不支持数据的实时更新。互联网搜索引擎一般有长达数个星期的数据更新周期。在数据库内部没有动态修改数据和索引的算法。不能支持数据动态更新。,(4)更高的搜索准确性和更好的搜索体验,TRS能够对不同的内容和查询需要采用不同的索引策略,如按字,按词,混合等搜索手段,按照内容的相关性而不是PageRank 获得相关性。互联网搜索引擎采用网页的标题和PageRank 进行相关性计算,对行业搜索引擎失去效果,查询效果和准确性差互联网搜索引擎竞价排名等商务模式破坏了行业性用户的搜索体验,(5)智能化信息处理,提高信息使用价值,TRS具有领先的中文智能处理技术,如自动分类、自动摘要、自动聚类、信息过滤等技术,
12、实现了高级数据挖掘应用。互联网搜索引引擎在这方面还处于十分原始的阶段。必须基于大量的后台人工处理,这显然对企业和行业用户是不可能实现的。行业用户需要自主服务,自动服务。,(6)低成本下实现海量信息检索,TRS搜索引擎具有更低的硬件成本。在同样的硬件环境下可能支持更多的用户;其他互联网搜索引擎采用大量服务器群集实现对大规模用户的并发访问,但是对于一台机器上能够处理海量信息,能力很差。如TRS在新华社的应用采用4台服务器可以支持多达2000万文件的高效检索。,(7)多文种、多媒体、跨语言,TRS支持多文种、多媒体、跨语言查询TRS在外交部全球网站群,新华社多媒体数据库,奥运会官方网站具有成功的应用
13、。,(8)超越搜索,提供完整的内容管理价值链,仅有搜索是不够的,用户需要信息的整合、采集、服务、管理等,TRS作为内容管理的领导厂商,提供全面的内容管理和内容服务;互联网搜索引擎仅仅提供搜索服务,大量工作在后台,不对用户开放,无法满足行业用户的需求互联网搜索引擎的数据和索引组织的主要目标是提供快速的检索,数据资源很难与其他应用共享;TRS具有完备的数据管理功能,采集的数据资源实现完备的数据库管理,并提供完备的应用开发接口(包括C/C+,ADO,Javabeans等标准接口),可供其它应用方便调用。,TRS高素质团队与经验,20人+的搜索产品研发队伍10人+的顾问咨询队伍50人+的实施与支持队伍众多大型项目成功策划、咨询、研发、实施、培训与支持经验公安系统搜索引擎、中国人民解放军总参谋部某部、国家发展和改革委员会、中华人民共和国中央人民政府门户网站、新华社多媒体数据库、人民日报社、中国经济网、外交部、国家统计局、国家知识产权局、最高人民法院北京市劳动和社会保障局、厦门市政府、上海市高级人民检察院、国防大学图书馆、广东省广州市图书馆、北京大学、清华大学、中国五金矿产进出口总公司、索尼(中国)、国家电网公司、浙江省电力公司、中国网通、广东移动、中国人民银行、中国证券网、香港中华法律集团、华润(集团)有限公司等等,TRS希望与您真诚合作!,