1、信息检索原理技术1.1.1信息:信息是事物发出的信号所包含的内容。一次文献信息:作者以自己的研究成果为基础创作或撰写的、未经过加工的原始文献。 (期刊论文、研究报告、专利说明书、会议论文、学位论文)二次文献信息:对一次信息加工整理而成的文献。 (目录、文摘、索引)三次文献信息:对一二次信息综合、分析等深加工的产物。 (评论、进展报告、述评、百科全书、年鉴、指南、期刊书目)知识:人类的主观世界对客观世界的概括和反映,是大量有组织的信息,是关于实施和思想的有组织的陈述,提供某种思考的判断和某种实验的结果。文献:是记录有知识的一切载体,即知识信息必须通过文献载体进行存储和传递。1.3.1检索系统包括
2、物理构成和逻辑构成。从物理构成的角度来考察,检索系统一般包括硬件、软件和数据库。硬件:计算机检索系统采用的各种硬件设备的总称。包括具有一定性能的主计算机或服务器、检索系统的外围设备和在数据处理和传送中有关的其他设备。软件:包括与计算机检索相关的各种系统软件及相关应用软件。数据库:至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。 ;逻辑构成:文献与数据的选择与抽取子系统(从外部信息源向系统输入,输入时要按照系统既定方针和用户需求进行选择) 、词表子系统(分为完全的自然语言检索和后控自然语言检索) 、标引子系统(按照一定的词表,对文献赋予标引词) 、查寻子系统(把
3、用户的需求,经过概念分析,转换成系统语言的词汇,并指出其逻辑关系的过程) 、用户与系统交互子系统(检索系统向用户提供的实现其检索过程的手段) 、匹配子系统(文献的标引记录和提问的检索策略进行对比并决定取舍)2.2布尔检索模型的概念:采用布尔代数和集合论的方法,用布尔表达式用户提问,通过对文献标识与提问式的逻辑运算来检索文献。逻辑运算符有三种:逻辑与、逻辑或、逻辑非。优点:逻辑运算符较少,便于用户学习;模式较易构造,可以通过简单的关系来体现检索项的联系;布尔检索模型可以将复杂的检索过程以简单的检索式表达出来,通过逻辑运算符将概念间的逻辑关系体现出来,变成计算机可执行的运算,从而实现自动匹配的过程
4、;检索提问式较灵活,方便修改。缺点:布尔检索中关键词没有权重区别;检索结果的输出没有重要性排序;查全率很难控制;布尔检索要求用户具备诶很高的素质和语义提取能力。3.3无论是人工索引还是自动索引都经历了采集信息、建立数据库到标引信息、形成索引数据库的过程。信息采集:有关机构和个人,根据一定目的,将系统内外各种形态的信息采出并汇集起来的过程。传统的文献信息采集:主要通过人工采集如采购、索取、交换、检索、复制等手段来获得有关文献信息。信息标引:通过对文献或信息的分析,选用确切检索标识,如类号、主题词、关键词、人名、地名等,用以反映该文献或信息资源内容的过程。建立索引- 索引包括索引款目、参照系统和索
5、引款目导引标志。索引款目由索引标目和索引地址构成。索引标目又可以分为主标题和副标题。索引主标目揭示被索引概念的核心部分。副标目作用是使所用标目含义更为具体、专指。索引的建立一般有以下的步骤:1、选题,建立主索引文件。2、对主索引关键词进行抽词倒排,建立目标格式文件。3、排序与归并。3.6倒排文档:主要按照某一属性(字段)的字符顺序存入数据库的全部记录,又称主文档。顺排文档的检索,只要将用户的检索表达式与顺排文档中的文献记录依次比较,就可以判断是否又匹配的文献记录。检索可以是顺序检索,也可以分块检索和折半检索。顺序检索:从一个顺排文档的开头部分,依次查找文档中的所有信息,已找到文档中潜在的某一特
6、定信息。分块查找要进行两次查找。首先对按关键字的顺序将主文档分为若干大小适当的记录块,标记每个块的最后一个记录的关键字。查找时,将所要查找的记录在哪一块。折半检索法按照检索关键字值得大小将检索范围分成二分之一,逐步缩小范围检索,知道查到所需要的信息。首先检查文档中间的记录,把中间记录的关键之同用户查询中的关键值比较,如果相匹配,那么中间的记录就是需要查找的记录。如果不匹配,进一步确定所要查找的关键字值在中间的元素的前面或后面。如果在前面,则文档后面的一般就可以忽略,再去检查剩余部分的中间元素,直到找到相关信息。倒排文档:将主文档中的可检字段抽出,按某种顺序重新排列起来所形成的一种索引文档。倒排
7、文档的建立:(1)索引词选择。选择需要做索引的字段属性,抽出其中内容,并在其后附上记录号。(2)对抽取的内容进行排序,便于归并相同内容。(3)对相同内容进行归并,把合并后内容放入倒排文档的主键字段,统计每一数据的频次作为目长,把每一内容后的记录号顺序放于记录号集合字段。倒排文档可以实现对文献的快速查找,只需检索索引就可以确定是哪些文献是与查询请求相关的。 6.1.3 一般系统的用户接口应满足以下用户需求:1、 帮助用户学习系统,使之了解系统内的资源情况、构成和使用方法。2、 为用户提供进行检索作业的通道3、 为用户提供描述检索问题的工具4、 保证在用户满意的时间内,以用户期望的方式,检索准确、
8、完备的信息。5、 它应该尊重用户的思想方法和思维习惯。6、 能保证用户事先不需要经过过多的培训,即使缺乏信息检索经验和知识,也能在系统自身的帮助下完成检索。7、 能够帮助用户认清和确定自己的信息需求,并促使检索依据用户的实际需求进行。信息检索系统的用户接口所具备的功能可分析和总结如下:1、 自动登录系统2、 访问多个数据库的功能3、 数据库选择功能4、 帮助功能5、 检索式构造功能6、 查询扩展7、 相关反馈功能8、 下载和上载功能9、 用户视图定义功能10、 后处理功能用户接口的组成:1、 面向用户部分2、 面向系统部分3、 转换部分用户接口的主要形式:1、 命令语言形式2、 菜单选择方式3
9、、 表格填充方式4、 直接操作方式5、 自然语言的人机对话方式第七章 信息检索系统的评价7.2.1 系统角度的性能评价指标 1、从系统角度来考察检索系统的评价通常是以相关行为标准的。系统角度的相关性是把信息检索定位于一种单方向的信息处理过程,系统根据用户的提问输出检索结果,用户是信息的接受着。这种理解把相关性看作是系统方面的属性,用户提出的查询请求只是被拿来与已确定的文档相比较,二者之间匹配、比较的主要标准就是文档内容与提问的“主体性” 。系统相关性是对复杂的相关性概念采取的一种简化处理,只有做出这种简化,信息检索及其评价才能在一种相对“客观”的相关性标准下顺序进行。相应地,评价指标也比较容易
10、观察或测度。2、查全率和查准率的互逆关系查全率和查准率之间具有密确的关系,即互逆关系,反映了某一检索结果集合的不同方面的特性。从查全率与查准率的定义上很难推出两者的变化关系,但从感性角度,许多实例证明了两者的互逆关系。一般说来当选用比较准确和专指的词作为检索词时,所检出的数据信息往往比较符合检索要求,但数量有限,使检索者担心有许多数据被过滤掉。当扩大检索范围,选用广义的词作检索词时,准确率会大大降低,检索结果会很庞大,使检索者不得不进行人工的再次筛选。3、影响查全率和查准率的因素查全率与查准率的变化关系是一个相当复杂的课题,不仅因为两者本身的关系不确定,而且研究中会发现许多影响因素,这些影响因
11、素也存在诸多不确定性。其影响因素表现在:(1)相对值的影响研究查全率与查准率的关系,只是作为一种普遍意义上的规律来研究。要做大量的统计,经过整理分析,得出统计的平均结果作为建立数学模型的基本依据。因此这是相对值的研究,其本身就具有一定的不确定性,其结论也不能是绝对的。(2)检索方式的影响检索方式有委托检索与非委托检索之分。委托检索是指检索者向检索专业人员提出提问,有检索专业人员操作系统进行检索然后将检索结果传递给检索者;非委托检索是指由检索者亲自使用检索系统进行的检索活动。两种方式各有利弊,用户更清楚自己的检索主题和具有更多的专业知识,检索元更熟悉检索系统的指令和运作情况。采用的方式不同,其查
12、全率和查准率受到的影响因素也不同。(3)时限的影响研究查全率与查准率的关系时还要考虑时限的限制,要在时限相等的范围内取样。(4)检索过程中的影响因素数据库中数据信息的组织和标引的科学程度也会影响查全率和查准率。标引得越深,需要与之匹配的检索词越专指,这样查全率可能会升高,而标引词使用得越多,入口就越多,这样查全率可能会升高。同样,检索时检索策略的组织和对被检主题的理解程度词语转化能力都会造成不同的检索结果,成为我们定量研究中的不确定因素。综上所述,在对数据库中查全率与查准率的研究中存在许多的前提,而这些前提包含着多种不确定。4 查准率与查全率的适用性目前,查准率与查全率已经广泛的应用与评价检索
13、算法的性能。然而,随着研究的深入,两种测度的一些问题也暴露出来。第一,查询最大查全率的合理估计一般需要了解集合中的所有文献,对于大型的文献集来说,就无法对查全率进行准确的估计了。第二,查全率与查准率是相互关系的测度,它们评价检出文献的不同方面,很多情况下,把查全率和查准率结合在一起形成单个的测度可能更适合些。第三,查全率和查准率测度的是批处理模式下查询集合的性能。但对于现代信息检索系统来说,交互性是检索过程的一个重要特征。因此,那些量化检索过程信息性的指标可能会更适合。第四,当对检索到的文献进行线性排序时,查全率和查准率的计算会比较容易。可是对于那些并不需要排序的系统来说,查全率和查准率可能就
14、不能充分满足要求。7.2.2 用户角度的性能评价指标在检索性能评价过程中,脱离用户谈相关是不现实的。一篇文档是否具有相关性,很大程度上取决于用户的主观判断,往往涉及用户的知识状态、待处理(解决)的问题、任务及所处的情境或者用户的目标、动机等众多因素。用户角度的性能评价对检索结果的评价非常关键而不可缺少。用户角度的性能评价指标主要有以下指标:(1)涵盖率(2)新颖率(3)相对查全率(4)查全效果7.2.3 搜索引擎的性能评价指标1、建立评价指标的原则搜索引擎评价指标体系的建立应符合以下三个原则:(1)科学就是指新建立的搜索引擎评价指标体系能客观、真实、全面地反映搜索引擎的主要性能及其内在联系。(
15、2)合理就是搜索引擎评价指标体系是对传统的信息检索评价指标体系的扬弃,继承信息检索传统评价指标体系中有用的部分,摒弃信息检索传统评价指标体系中存在的严重缺陷的部分,增加新的适合互联网上信息检索评价需求的内容。是搜索引擎评价指标体系既继承传统评价指标体系,又符合当代科学技术发展的客观要求。(3)有效有效是指搜索引擎评价指标体系既能比较准确的区分各种搜索引擎的主要性能,又能简单易用、方便操作。2、评价指标设计的方面(1) 数据规模与内容具体的考察因素(或指标)包括收录范围、数据库内容、更新频率、重复率、死链接率等。(2)索引方法主要考察的内容包括索引方式(自动还是人工) 、引索范围和深度等(3)检
16、索功能主要包括两大方面:基本检索功能(包括布尔检索、截词检索、位置/短语检索、限制检索等)和高级(或辅助)检索功能(包括概念检索、相思检索、多语种检索等) 。(4)检索结果处理主要考察指标包括排序方式、显示内容/ 格式、后处理功能(如摘要、聚类、翻译等) 。(5)分类功能主要涉及内容包括分类类目体系的深度、数量、合理性等。(6)用户界面主要考虑因素包括界面布局、联机帮助、界面制定、界面广告量等。(7)汉字处理主要考虑的具体方面包括词语切分、多内码处理/转换、中英文混合检等。(8)其他如响应时间、系统稳定性等。3、目前评价活动面临的问题(1)搜索引擎提供(或公开)的信息有限(2)某些指标客观存在
17、(3)各个搜索引擎之间差异较大,测试结果数据的可比性较低。(4)有些评价指标涉及评价者的主观因素较多,或完全取决于评价者的主观判定第八章一DIALOG 的优势(1)信息量大。DIALOG 系统数据库总数达 900 多个,涉及 40 多个文中,相当于 internet中可检索内容的 50 倍,这个数量远远多于其它国际联机系统。(2)数据库的质量比较高。DIALOG 系统的数据库都是从世界上著名的数据库生厂商那里租借或购买,因而质量有保障。(3)检索迅速方便。DIALOG 系统检索功能强大,为各种信息需求提供了高效精确且一步到位的一次性解决方案。(4)具有较强的回溯检索功能。DIALOG 系统自
18、20 世纪 70 年代投入服务来,经历了 30年的资料积累,能够体现信息的积累性,系统性,和完整性二DIALOG 检索技术(1)专用搜索命令(2)逻辑组配 (3)截词技术 (4)限定技术三DIALOG 系统数据库(1)主题范围。目前 DIALOG 系统的主题范围有 商业与财政,能源与环境,食品与农业,人文学科等。(2)数据库内型1)书目数据库。主要存放原始文献书目信息。2)指南数据库。主要存放一些介绍公司,团体,或名人的数据库,或者如化学物质名称,结构,俗名之类的指南性信息3)数字数据库。存放调查数据或者统计数据等4)全文数据库。存放 法律,法规,期刊,报纸,专著以及其它文献的实际全文(3)数
19、据库结构数据库可以理解为通过计算机存取的机读信息的集合。DIALOG 数据库的基本结构如下:字段由字段构成数据记录由数据记录构成数据库(4)索引文件数据库是由成千上万条记录组成,每条记录以自然次序存放在数据库中,数据库中很多字段有检索意义能够提供检索入口,为加速检索过程需要建立索引文件。DIALOG 数据库中的所有具有检索意义的字段被标引为两种索引:基本索引和附加索引,基本索引包含与主题相关的字段,如题名,文摘,和正文字段,附加索引则包含其它的可检字段(5)联机培训和练习数据库DIALOG 数据库提供了近 40 个联机培训和练习数据库,这些数据库提供免费使用(6)联机帮助文档为了帮助检索者选择
20、合适的文档,构造和合理的检索策略,DIALOG 系统提供了一些联机帮助功能。四联机信息检索系统新发展随着科技发展,人们对联机检索的研究更加深入。未来的计算机系统应该向网络化,多媒体化,智能化方向发展。未来的信息检索系统应具有以下特征:第一,系统模式客服机/服务器化。这一结构是基于网络的一种计算模式,一起开放的平台概念,较高的运行效率以及灵活的扩展性能,成为当今信息系统结构设计的主流,第二,完善的网络平台。这要求通讯网络应全球性,全国性,或地域性覆盖,宽带传输,传输速度快等。第三,智能化人机接口。采用人工智能,专家系统,超文本等,让用户方便的访问各种信息资源。第四,具有多媒体采集,存贮加工,检索
21、,传递能力。第五,具有较强的网络互联能力。通过网关,智能开关等,将分布的系统连成一体,使用户利用不受时间空间的限制。第六,提供多种信息服务功能。除传统的数据库外还有文件传输,数字图书馆等。目前联机检索,光盘检索,引擎搜索形成情报信息检索的三大市场,由于各自所具有的优缺点,只能相互弥补,而不能彼此代替。联机检索具有光盘检索和引擎搜索不可比拟的优点,如检索的效率和质量高,信息量大,可靠性强等,而面对光盘索引特别是引擎搜索的冲击,联机检索必须采取对策调整自己的模式,提高服务质量才能赢得市场。第九章 因特网信息检索9.2.2 因特网信息检索工具的结构网络信息检索工具一般有自动索引程序、数据库和检索代理
22、软件组成。有些检索工具还拥有自己的维护管理软件。不同的检索工具在具体的实现机制上又各有不同。从而决定了不同检索工具的特色。1、 自动索引程序现在大多数网络检索工具都是采用一种称为 Robot(又称为Spider、 Crawler、Worms 、Wanders 等)的网络自动跟踪索引程序。它实际上是一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件。不同的自动索引软件所采育馆的标引、搜索策略不同,自动索引软件搜寻、标引网页的方式对信息检索的质量有直接影响。2、 数据库自动索引程序将采集和标引的信息汇集成数据库,作为该网络检索工具索引服务的基础。不同网络检索工具的数据
23、库收录范围不一样,有的收录 Web 及图像,有的收录Web、FTP、Flass 及新闻组等资源类型。不同网络检索工具的标引方式也不同,有的索引软件标引主题全文,有的则只标引主页的地址、标题、责任者、特定的段落和关键字等。因此,数据库的内容一般有网站的名称、标题、网址 URL、网页长度、网页的时间、相关的超文本连接点及内容简介或摘要等。不同数据库的规模差异也很大,数据库规模的大小决定了查询到的信息是否全面。3、 检索代理软件当用户提出查询要求时,由检索软件负责代理用户在数据库中进行检索。不同网络检索工具所采用的检索机制、算法有所不同。布尔逻辑检索是较普遍采用的一种机制,即按照检索项间的逻辑关系使
24、用布尔逻辑符 AND、 OR、NOT 等来组合检索项,形成检索式来提交查询。除了布尔检索外,许多网络检索工具还提供了一些其他的检索机制,如截词检索、概念检索、模糊检索、词组检索、字段检索和位置检索等。检索软件可根据检索机制构造的提问式来进行分析、判断形成检索策略检索。然后再综合运用某些检索模型来对检索结果进行处理,按检索结果与检索要求的相关度进行计算和评估比较,根据计算结果对文档排序,将最相关、最重要的信息排在较前面的位置。这就是相关度排序。有关各网络检索工具的收录范围、标引方式、数据库规模及所采用的算法和检索式的组织和处理等,不同的检索工具都各有自己的特点,可以在相关检索工具的主页上点击“A
25、bout us” 、 “FAQ”等地方获取信息。4、 网络信息检索工具的原理网络信息检索工具的工作原理可以概括为:通过自动索引程序 Robot(或人工)来管法搜集网络信息资源数据,经过一系列的判断、选择、标引、加工、分类、组织等处理后形成供检索用的数据库,创建目录索引,并大多数以 Web 页面的形式向用户提供有关的资源导航、目录索引及检索界面。用户可以根据自己的信息查找要求,按照该检索工具的句法要求等来通过检索界面输入检索项及提问式等信息。系统检索软件接受用户的提交的检索提问并按照本系统的句法规定对用户输入的字符串、运算符、标识符、空格等进行识别和判断后,代理用户在数据库中检索,并对检索结果进
26、行评估比较,按与检索结果相关程度排序后提供给用户第十章 数字图书馆的信息检索10.2.1 跨语言信息检索概念跨语言信息检索是指用户以自己所掌握的某一种语言构造检索提问式,计算机根据用户的检索要求在其他不同语种的信息(包括文本、语音、图像等)中进行自动搜索,得到的检索结果甚至可以翻译成用户指定的语种。跨语言信息检索结合了传统文本信息检索技术和机器翻译技术,不仅可以使检索更加容易,还可以提高查全率。跨语言信息检索中,用户用以表达自己的信息需求、构造检索提问式的语言称为源语言,被检索的信息资源所使用的语言称为目标语言。要实现跨语言的信息检索,就必须实现两种语言的翻译,而要实现翻译就必须制定相应的翻译
27、策略和构造相应的翻译知识。跨语言检索信息检索允许用户以他们熟悉的语言构造检索提问式,然后使用该提问式检索以系统支持的任一种语言写成的文献。跨语言信息检索的类型主要有:(1)双语言信息检索指用户用某种语言从另外一种语言表达的文献信息集中检索出所需文献信息的方式。(2)多语言信息检索指用户用某种语言从另外多种语言表达的文献信息集中检索出所需文献信息的方式。(3)特定领域的跨语言信息检索指检索对象设定为某一学科或某一主题领域的跨语言信息检索。(4)跨语言的多媒体信息检索。10.2.2 跨语言信息检索在数字图书馆的应用的必要性(1)数字图书馆信息资源的多样性随着数字化技术的发展,数字图书馆大量的文献资
28、料被数字化,越来越多的数字化信息可以存储在数字媒体中,而完善的数据库技术则可以对海量的数字数据实行有序的组织与管理。在数字图书馆的数据库中,信息资源非常丰富,不仅包含各领域的知识、文化信息,还包含同一主题不同语种的信息等。多语种信息数据库的存在,使得用户使用传统检索技术检索某一主题的信息时,往往无法得到全面的信息。在这种情况下,跨语言信息检索技术被引入数字图书馆中,以解决在数字图书馆中检索信息的全面性问题。目前,数据库技术完全可以实现对海量全面多语种信息的组织与管理。而正是信息资料的多语种化,使得有必要在数字图书馆中引入跨语言信息检索。(2)信息形式的多样性数字图书馆的另一个特点是包含各种形式
29、媒体的数字化信息。在各种形式的信息数据中,也必然会存在多语种现象,如在数字图书馆中存储了大量不同语种的声像资料,要在数字图书馆中实现同一主题不同语种声频资料的检索,就需要在数字图书馆中应用跨语种声频信息检索技术。(3)用户的广泛性数字图书馆中的信息数据被分布式的存储在不同的地域,因此完整的数字图书馆数据库是通过计算网络有机的连接在一起的。数字图书馆的网络性和开放性决定了数字图书馆用户的广泛性,因为不同地域、使用不同语种的用户都可以通过网络实现对整个数字图书馆分布式数据库的信息检索。用户的广泛性不仅表现在用户的数量上,还表现在用户的文化程度、使用语种等特点上。多语种用户特点使得有必要在数字图书馆
30、中应用跨语言检索技术,以方便不同语种用户对信息检索的需求。(4)服务的便捷性数字图书馆不仅是一个提供数字化信息资料的分布式数据库,同时也是一个提供各种服务的机构,如定题服务、查新服务等。为了提供方便快捷的服务,数字图书馆需要收集、处理、存储、检索和应用不同语种的信息,而在整个过程中都有可能涉及跨域中检索技术。10.2.5 跨语言信息检索的主要方法一般来说,解决查询条件与查询文档集之间的语言障碍有 5 种不同的技术路线:同源匹配、提问式翻译、文献翻译、中间语言技术和不翻译。1、同源匹配同源匹配根据两种语言的词语拼写形式或读音相似度来判断其中一种语言语词的含义,不进行任何翻译。这种方法只适用于具有
31、相同词源的语言中,但对于中英文来说则不通用。同源匹配可以单独使用,而多数情况下是与其他策略结合使用。2、提问式翻译提问式翻译是指将用户提交的查询请求翻译成系统支持的多种语言,然后对不同语言信息集进行查询。这种转化方式是目前实现跨语言检索的主流思想,它可以很容易地与传统的单语种信息检索技术紧密结合,并且仅对检索提问式翻译,对翻译系统的要求不高,但弊端显而易见:系统返回的信息,仍用目标语种表达,可以认为提问式翻译是一种不完全的跨语言检索,但如果系统对提问式的翻译较准确,用户可以借助辅助翻译工具,浏览相关的信息,提问式翻译对用户仍然是十分有帮助的。目前提问式翻译模式有如下 5 种:(1)基于词典的模
32、式主要利用机读词典,将用户提交的检索式翻译成目标语种,然后进行检索。(2)基于双语语料库模式从大规模的语料入手,从中抽取所需要的信息,自动构建与应用有关的翻译技术。(3)字典-语料库模式这种方法结合了基于字典和基于语料库方法的各自有点。首先使用字典对提问时进行翻译,在翻译过程中可能会出现多个结果或翻译含糊不清的情况,此时利用专业语料库中相关术语的对应关系来净化翻译结果。(4)提问式构造方法提问式构造方法的实质是利用同源词、复合词或 n 元匹配分析提问式中各个词的权重:只有一种或两种释义的词的权重最高,而又多种解释的词用同源词符、复合词符或 n 元匹配连接以降低其权重。(5)提问词再赋权方法该方
33、法分三步:首先,使用双语字典将提问式翻译成扩展提问式(一对多) ;其次,对扩展提问式中单词赋权重并组成扩展提问式向量;再次,根据由共现技术确定的提问式-文献相似度标准将由扩展提问式向量检索得到的文献进行排列,无论什么语种,一词多义现象都是普遍存在的。3、文献翻译文献翻译与提问式翻译正好相反,是指先将多语言的文献信息集转换成与查询相同的语言,在进行单语言信息检索。其主要优点是:(1)由于具有完整的文献语境,股可以提高翻译质量;(2)可以离线执行。缺点是:速度赫曼,且需要将文献库中的文献翻译为系统支持的每一种语言,这是的文献库的规模不可能很大。4、中间语言技术将源语言翻译成中间语言(可以是一种或多种) ,然后再将中间语言翻译成目标语言(利用多种中间语言时需要合并) 。一般认为,选择中间语种应该是计算机容易处理的语种,如英语,这样可以解决两种语言之间无法直接翻译的问题。5、不翻译、目前不通过翻译进行跨语言信息检索的典型技术是 Latent Semantic Indexing(LSI) 。该技术是一种基于内容概念的检索技术,它提供了一种不需要翻译就能是一种语言的文本片段与具有相似内容概念的另一种语言的文本片段进行匹配的方法。LSI 技术的优点:不需要翻译,从而避免了其中的一系列技术难题;应用于新的语言比较方便,只要有相应的双语文献作为训练文档,不需要词典、