全文检索系统整体方案.doc

上传人:sk****8 文档编号:2168593 上传时间:2019-05-01 格式:DOC 页数:25 大小:1.94MB
下载 相关 举报
全文检索系统整体方案.doc_第1页
第1页 / 共25页
全文检索系统整体方案.doc_第2页
第2页 / 共25页
全文检索系统整体方案.doc_第3页
第3页 / 共25页
全文检索系统整体方案.doc_第4页
第4页 / 共25页
全文检索系统整体方案.doc_第5页
第5页 / 共25页
点击查看更多>>
资源描述

1、1 全文检索系统方案1.1 全文检索需求1) 系统提供模糊检索、分类搜索、高级复合搜索、全文检索、图片内容检索、跨库检索等多种检索途径;2) 支持字索引和词索引;3) 检索条件具有完整的关键词布尔逻辑运算 AND、OR、NOT 能力,支持复合式布尔逻辑运算查询,并且可以配合多组左括号“(“与右括号“)“作关键词查询优先级的设置;4) 提供用户多次递进查询的功能,用户可根据上一次查询关键词得到的检索结果集,增加查询关键词与缩小搜索日期范围,而得到更准确的查询结果集;5) 能够支持对以上文件中的中文(简体/繁体) 、英文、日语、韩语内容实现关键字检索;6) 支持对 Word、TXT、PDF 等多种

2、主流文档格式全文检索,并提供开发接口以支持特殊文档格式的全文检索;7) 在数据源数据发生更新时,能在索引库中反映出来,保证搜索的信息为最新,即支持增量索引机制;8) 用户可自行设定时间,让系统自动定时进行更新索引;9) 对于百万级记录数的搜索以及结合模糊搜索等查询方式,搜索时间不得超过 10 秒;10) 提供跨数据源、数据格式的搜索;11) 同过相关性搜索,能够把和搜索条件相关联的信息搜索出来;12) 不但能够对图片的描述信息进行搜索,还能对图片内容的检索;13) 提供 COM 与 SOAP 的搜索接口(Interface) 可让其它应用程序或查询网页能够提供用户查询入口和查询结果的呈现,用户

3、可通过应用程序或浏览器访问全文检索服务器,提交查询条件,可在浏览器中查看检索结果;14) 查询结果集中应包含结果集总数、命中的结果文件的完整路径,以及符合关键词出现的内容片断;15) 在搜索结果集中,关键词应被标识出来,用特殊的字体及颜色和其他文字进行区别,查询者可在查询结果片断中一目了然的看到关键词出现的位置;16) 查询结果可按照关键词命中次数,命中结果文件的修改时间,大小等条件进行排序;17) 可提供用户对检索命中结果文件在索引库中进行标记,从而再次检索时,不在标记过的文件中进行查询;1.2 全文检索系统总体方案系统将采用以下全文检索流程。针对企业内部的信息,包括文件服务器上的文件、网站

4、网页、ERP 等系统存放信息的数据库信息、办公应用中的公文档案文档已经内容管理系统中流转的内容,本系统提供了两种数据适配器来提取其中的正文内容和属性内容,形成一个相对结构化的数据虚拟层;本系统的索引引擎(Indexer)对结构化的数据虚拟层进行中文切分词、文件特征分析和逐步索引,以及其它索引算法,生成索引数据库;使用者(user)在搜索页面中输入查询字串等搜索条件并提交给本系统后,本系统的全文检索查询引擎(Searcher)会在索引库中进行搜索,并将符合搜索条件的搜索结果返回给使用者;使用者(user)可于查询结果页面,进一步链接到信息原文查看详细内容。对于系统管理,管理员可通过相应 web

5、方式的管理程序来管理整个系统运行环境及设置文件;并通过索引引擎(Indexer.exe)实时或定时创建索引,更新索引数据库的内容,使检索信息维持在最新状态。1.3 全文检索系统带来的效益 高效率的整合搜索,大幅减少组织成员在取得信息时花费的时间!本系统和其它搜索系统只针对特定信息源搜索不同,它能对企业内部绝大多数的信息创建索引和搜索,具备强大的信息整合及快速回应能力,让企业成员以单一搜索页面、简易的操作方式,即可在最短时间内,完整、准确、及时地掌握企业内外所有信息,不必再耗费大量时间的找寻信息! 信息过量不会造成企业成员的信息焦虑!通过本系统强大的索引/搜索能力,大量的信息也可在瞬间过滤出符合

6、使用者条件的信息,不必担心迷失在漫漫的信息洪流之中! 非结构/非组织的信息,不再是知识管理的盲点!文件/档案以及非经过分类管理的信息,因为附加信息稀少,往往成为知识利用上难以判断、分析的信息。本系统直接针对内容全文分析、关联,使这类信息同样可让使用者以检索方式,快速筛选利用! 整合容易,使用简易,导入迅速,易于接受!套装化、模块化的设计及灵活的整合能力,能在企业内迅速的安装设置;操作方式简单,企业成员易于接受,导入方便。以最经济的时间、人力及费用成本为企业创建信息流通、充分分享的知识环境。1.4 全文检索系统平台架构本系统基于组件化和松散耦合架构和设计,系统平台架构示意图如下:整个系统主要分为

7、信息整合、信息萃取和服务、应用整合三个部分。 信息整合此部分主要作用是将企业内部存储于不同应用系统中的结构化信息、半结构化信息、非结构化信息通过本系统提供的两种数据适配器进行信息提取,形成一个相对结构化的数据虚拟层,以备后期信息萃取和服务。 信息萃取和服务在信息整合层形成的相对结构化的数据虚拟层基础上,本系统将对其中的每笔记录进行中文切分词、索引、文件特征分析、自动分类等各种演算算法处理,形成可以提供搜索服务的索引库。用户利用本系统的搜索引擎处理提供的强大的搜索功能,如中文同音搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜索、分类浏览等,快速、准确、完整、及时、有效地搜索到符合自己搜索条件

8、的信息。 应用整合本系统还提供了完整的外部程序整合机制。所有组件均提供 SDK 完整开发接口,方便应用整合和应用扩展。1.4.1 信息整合此部分主要提供对企业内外部非结构性数据信息源建立自动化数据汇入功能。根据用户实际需求,用户可以选择导入包含Text、 Microsoft Office、XML 、RTF、PDF、HTML、MHT、AutoCAD 及 E-mail(含附件文件)等格式及文件影音附件(如影片的文件名或摘要、图片的文件名或摘要、及文字)自动化建立索引数据,建立索引数据所处理之文字包括繁体中文、简体中文等;同时用户可以选择导入数据库数据,如 Oracle、 Informix、Syba

9、se、MS SQL 等。此外和 Notes 系统也已经有了无缝整合,可挂载 Notes Composer 对 nsf 库中正文及附件信息索引,在做索引的过程中自动把每笔记录的权限键入索引库。本系统提供可挂载的数据适配器(Data Adapter),将异质的数据来源与数据结构进行汇整与粹取,亦扮演将非结构的信息结构化,可以很容易地分析特殊档案格式和管理复杂的数据源结构(如递归、巢状等)的多功能设计,以方便信息检索与管理。以 e-mail 含附件为例,e-mail Adapter 可解析 e-mail 内文,而当选购 office Adapter 后,原来的 e-mail Adapter 即可解析

10、 office 相关的附件文件,可视需求额外购买 PDF、ZIP、RAR、OCR 等不同数据适配器,即可交互搭配使用。搭配使用本系统 的 TXT、Microsoft Office、RTF 、PDF 、HTML 、E-mail 及 FileMeta 资料提取器,将可解析 Text、 Microsoft Office、XML 、RTF、PDF 、HTML、MHT 及 E-mail(含附件文件)及文件影音附档(如影片的文件名或摘要、图片的文件名或摘要、及文字)等格式,包括繁体中文、简体中文、英文、Unicode 等;使用数据库数据 适配器,将可支持数据库数据汇入处理如 Oracle、 Informi

11、x、Sybase、MS SQL 等。1.4.2 信息萃取和服务此部分须提供对数据提取的内容所包含的信息,进行数据处理分析,包含: 分类模式建立自动分类功能。 针对非结构性数据建立词库,词库须包含同音词库、同义词库、专业词库。 自动分类机制与专业词库须具备自动学习与修正之功能以提升数据处理准确度。 可针对不同使用层级、项目进行非结构性数据权限控管。依照使用者不同等级提供不同权限的查询功能接口。应用本系统一系列内容分析与索引核心组件群,将汇整的内容进行断词、索引、分类、文件特征等运算与处理,以便满足信息检索与信息管理的应用,提供多功能全面性的数据分析能力,可针对不同情境应用加以整合,快速达到使用者

12、需求。同时,用户利用本系统的搜索引擎处理提供的强大的搜索功能,如中文同音搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜索、分类浏览等,快速、准确、完整、及时、有效地搜索到符合自己搜索条件的信息。1.4.3 应用整合完整外部程序整合机制所有组件均提供 SDK 完整开发接口,方便外部整合。另外大量提供XML 的方法来进行信息源更新时的同步以及权限的导入与检查工作。1.5 全文检索系统功能特点1.5.1 基本检索功能支持 支持跨数据源索引与整合搜索。将分散在 File Server 上的文件、远程网站中的网页、群组软件中的资料,以及数据库中的文字与非文字纪录,在一次搜寻条件下,整合搜寻出来。可以

13、对近线数据、在线数据和离线数据分别建立索引库,到时可以通过索引库的选择来控制对哪些性质的数据进行搜索; 支持万用字符(*、?)查询 。使用者可查询部分关键字及*(代表多于一个字)或?(代表一个字)的组合。例如:输入关键词【Chin*】 ,会找到【China】 、 【Chine】 、 【Chinese】等等。输入关键词【Chin?】 ,会找到【China】 ; 搜寻条件具有完整的布尔逻辑运算 AND、OR、NOT 能力,支持复合式布尔逻辑运算查询,并且可以配合多组左括号“(“与右括号“)“作关键词查询优先级的设定,方便查询者输入布尔组合之查询条件; 内建智能型快速响应模式(Smart cache

14、)机制,可以提供同一种查询条件之重复使用率,提高系统资源的效益。Cache 储存目录记录了Cache 档案所要放置的地址,经查询过的资料或画面,第二次再进入时,可重复使用第一次查询结果; 支持/多字段 / 多条件检索,提高搜索精确度;单一字段内,支持AND/ OR/ NOT 逻辑条件,且支持括号方式来提供条件优先权。多字段条件间,支持 AND/OR/NOT 逻辑条件;1.5.2 词索引与查询功能系统中提供了传统的字索引,但是为提高查询检索的准确度,系统采用自然语言断词机制和灵活的词索引开关,用户可根据需要选择词索引或字索引。具体功能如下: 中文句子将透过智能型自动断词技术以达到词索引的效果,自

15、动分析与断词,并建立词索引; 词索引功能通过开关灵活设置; 检索字串首先通过自动断词,将其断词结果进行组合检索; 提供词库编辑器,针对断词用的词库进行维护和调整;使中文切分词更符合使用者的行业特点,提高查询的速度和准确度。该功能优势如下: 提高精确度: 输入民法不会找到人民法院 ; 更小的索引空间:通过词索引的方式,索引数据库相对字索引需要更少的磁盘空间;同样数据量下,检索时需要的 Memory 更少; 检索性能更高:配合高效算法,词索引的搜索性能相对字索引平均高出 3 倍以上;1.5.3 多国语系数据索引与查询 系统基于 Unicode 设计。 可支持多国语系(英文、繁简体中文、日文、韩文、

16、Unicode 等)混合的文件的建置与查询。 可支持多种编码格式的索引,包含 Big5、GB2312、Unicode、UTF-8、 EUC-JP、Shift-JIS ,并支持以 Unicode 同时输入多国语系条件进行搜寻。 同个数据表或一条数据库记录中可以支持多国语言混排内容; 一个索引数据库可以存在多国语言的不同数据; 可以输入多国语言的检索条件,并使用 AND、OR、NOT 逻辑关系; 检索结果中可以同时显示多国语言记录; 搭配多国语言同义词库,可以通过单一语言条件,得到多国语言检索结果;JapaneseSimplifiedChineseTraditionalChineseKorean1

17、.5.4 中英文模糊搜索查询功能 内建中英文容错(Fuzzy) 查询功能。 中英文容错功能 Fuzzy Search,基于文字特性,很多专有名词及词汇依情况不同,也许衍生出通用的简称,或是文字次序对调。也有可能因为模糊不明确的意象,使用者希望只需要输入一 个关键词,就能一并查询性质类似或相关之信息。比如:输入Mobile Network可查到Mobile Appliance Network 等特定距离的词句、输入产业研究可查到产业结构研究 、 产业.研究等,扩展搜寻的完整性。1.5.5 近似概念词库辅助查询功能 可针对不同的索引库设定同义词组。如设定电脑 $ Computer $ 计算机 为同义词,则使用者可搜索“电脑”时,可同时查到含有“Computer”或“计算机”的信息。 内建 18 万多组中英文同义词组,具有中英文近似概念与同义词检索,并可提供词库管理工具,使用户可自行修改词库内容。1.5.6 其他检索功能 中文同音辅助查询功能,如输入“网骆” ,启动中文同音功能后,可以

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课程笔记

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。