1、1跨语言信息检索在搜索引擎中的应用摘要:简单介绍了跨语言信息检索在搜索引擎中应用的必要性、重要性和最近的国内外应用状况。指出了对应用中存在的不足和缺陷,并相对应提出了改进建议。最后对跨语言信息检索在搜索引擎中的应用趋势进行了展望。 关键词:跨语言信息检索 CLIR 搜索引擎 1 概述 所谓跨语言信息检索(Cross-language Information Retrieval,CLIR) ,系指用户以一种语言(通常是自己的母语)提问,检出另一种或几种语言描述的信息资源的信息检索技术和方法。CLIR 中,用户用以表达自己的信息需求、构造检索提问式的语言称为源语言(Source Language)
2、 ,被检索的信息资源所使用的语言称为目标语言(Target Language) 。网络用户检索信息主要通过搜索引擎来达到其目的。就中国来说,CNNIC 最新发布的第 25 次中国互联网络发展状况统计报告显示,截至 2009 年 12 月 31 日,中国网民规模达到 3.84 亿人。目前搜索引擎用户规模达到 2.8 亿人,年增长率为 38.6%。搜索引擎的使用率为 73.3%,较 2008 年增加了 5.3 个百分点,超过了即时通信成为网民使用互联网的第三大应用1。然而,网络资源语种的多样性和差异性成为了网络用户存取信息的巨大障碍。网络信息语种分布和网络用户语言分布不平衡。据 Internet
3、World Stas 统计,截止 2009 年 12 月 31 日,2目前全球 18 亿多网络用户所使用的语言依次为:英语 27.7%,中文 22.6% ,西班牙语 7.8%,日语 5.3%,葡萄牙语 4.3%,德语 4.0%,阿拉伯语 3.3%,法语 3.2%,俄语 2.5%,韩语 2.1%,其他语言 17.2%。虽然笔者没有找到最近 Web 网页所使用的语言比率,根据 Netcraft 统计显示,截止 2010年 6 月全球共有 2 亿多个网站2。而根据第 25 次中国互联网络发展状况统计报告统计结果,中国网站数量仅为 232 万个,比率刚刚超过10%,由此可见一斑。因此,CLIR 是全球
4、知识共享的关键因素,是跨越地理和语言障碍获取信息的技术需求。而且,网络用户需要 CLIR 工具,用其查找、检索和获悉任何语言和形式的相关信息3。 2 跨语言信息检索在搜索引擎中的应用现状 搜索引擎按语种分为单语种搜索引擎、多语种搜索引擎和跨语言搜索引擎等。它主要涉及信息检索和机器翻译两个领域的知识,但又不是这两种技术的简单融合。跨语言综合搜索引擎是在一般的搜索引擎基础上加了两个功能:不同语言提问的翻译和不同搜索引擎检索结果的集成。2.1 跨语言搜索引擎 2.1.1 国内外概况。国外多数主流的搜索引擎一般具有跨语言检索的功能,如 Google、Yahoo!、AltaVista 和 ixquick
5、 等。另外,对检索结果的翻译功能是 CLIR 技术的一个有机组成部分,是检验 CLIR 是否成熟以及是否具有实用性的重要指标4。此外,Google 和 AltaVista 还能够实现网页翻译,极大地便利了网络用户浏览外文网站。如 AltaVista的 Babel Fish 翻译个人网页多达 10000 个,当用户点击链接时,链接的3网页也会自动翻译。 而具有 CLIR 功能的中文搜索引擎则较少。就笔者所知的只有传承自Yahoo!的雅虎中国搜索。另外,搜狗具有在线翻译功能4。 2.1.2 支持语种数量。Google Translate 目前支持 52 种语言之间的任何翻译,Yahoo!也可以进行
6、 13 种语言之间翻译整个网站的文字或短文的检索,AltaVista 则可以在 19 种语言之间进行翻译。但是这些标榜CLIR 的搜索引擎大多其实只是多个单语言模式搜索的集合,只有 Google Translate 可以算是真正意义上的跨语言搜索引擎。这仍将是 CLIR 发展的一个重要方向5。 2.1.3 工作流程。跨语言搜索引擎的工作流程可以简单的概括为:用户向系统提交检索词,形成一个源语言的搜索式。系统对搜索式进行语言识别,识别出语种后,就进行提问式的词法分析和结构分析,然后把这些分析过的搜索式翻译成各种语言的搜索式。最后把这一系列的搜索式提交给系统进行检索。系统再将检索到的结果反馈给用户
7、。 Google Translate 则在它的帮助文档中提到的:“Google Translate 是一个自动翻译器,也就是说,它不受人类翻译的干预,而是以国家最先进的技术代替。现在大多数使用中的商业机器翻译系统已经开发了基于规则的方法,并且需要大量的工作来定义词汇和语法。我们的系统采用不同的方法,我们提供数十亿字词的文本给计算机,同时包括目标语言的集成文本,和由各种语言之间人类翻译实例构成的对齐文本。然后,我们应用统计学技术,来建立一个翻译模型。 ”可见,不同于传统的基于规则的方法,Google Translate 的检索策略是基于语料库的4方法。它用统计学方法从大规模语料中分析和归纳语言现
8、象和规律,再用得到的统计规律或语言模型来处理自然语言。不过在实际使用中,效果差别不大。 2.2 搜索引擎的在线翻译工具 无论搜索引擎是否具有跨语言检索功能,但是它们提供的各种各样的翻译资源也是很重要的研究工具。除了现有的各种词典外,还有不少的在线翻译工具。另外,如 AltaVista 提供的在线翻译工具 Babel Fish,可以为用户翻译一段字数多达 150 字的文本。搜狗百宝箱中的在线翻译也可起到辞典和翻译短文的作用。 3 不足与改进建议 跨语言搜索引擎现正处于方兴未艾的状况,因此也存在许多不足与缺陷。找出它们的问题所在,并提出改进的建议,才是推进 CLIR 的实际措施。 3.1 跨语言搜
9、索引擎的不足 3.1.1 实用性方面,如今 CLIR 的技术已经取得了长足的进步,但即使是最好的 CLIR 系统的性能整体上和发展成熟的单语言检索系统仍有差距。在真实语境下跨语言检索系统及其相关工具还是非常缺乏,现有技术离真正的实用化还有一段距离6。 3.1.2 交互性方面,大多数跨语言搜索引擎都没有做到与用户的良好互动。单语言搜索引擎在检索结果下方显示相邻和相关词汇的功能,跨语言搜索引擎就不具备。在急需词义消歧的情况下,搜索引擎的交互性显得更加重要。 3.1.3 准确性方面,由于使用商业机器翻译系统,跨语言搜索引擎5和在线翻译工具的翻译准确程度显然跟不上用户的需求,当翻译语法结构复杂的文本时
10、更是如此。而真正意义上的 CLIR 应该是在文档层次进行翻译的。翻译精度不高往往会造成用户对检索结果难以理解。 3.1.4 灵活性方面,传统的基于规则的方法灵活性较差,容易忽略语言中那些经验性的、小粒度的知识,难以覆盖各种复杂纷繁的语言现象。 3.2 改进建议 3.2.1 加强跨语言搜索引擎的系统交互性,采用查询扩展。许多检索词在双语词典中的译项并不唯一,且这些译项所表达的意思有时相差甚远。查询扩展则是在用户输入检索提问后,采取一定策略,对用户的检索要求进行扩充。这样一来,就可以提高检索结果的检全率。同时,要建立用户反馈机制,以求改善 CLIR 系统。 3.2.2 加强通用商业机器翻译软件的研
11、究,提高机器翻译的质量。在 CLIR 中,解决语言障碍的基本方法是两种语言之间的翻译,而所有的翻译方法都离不开机器翻译、双语词典、语料库等作为翻译的语言基础。目前的通用商业机器翻译软件普遍质量较低。成为制约 CLIR 在搜索引擎中广泛应用的一个关键因素。同时,要逐步从限制性强的基于规则的策略过渡到基于语料库的策略。 3.2.3 加强 Web 语料库的建设。语料库是大量文本的集合,由相互对应的两种语言的素材构成。通过建立语料库收集大量单语或双语语料和词典,可以从中获取语言知识和翻译知识。另一方面,还要克服 Web资源种类繁多、数量庞大、所涉及的语种众多,以及 Web 资源版权保护6等给 Web
12、语料库建设带来的困难。 4 结语 CLIR 研究真正活跃起来并取得成果,是在 Internet 迅猛发展的 20世纪 90 年代后期,一些实验性 CLIR 技术相继问世7。然而经过十几年的发展,跨语言搜索引擎还是很少,效果也不尽如人意。但是相信随着网络的发展、信息技术的进步和对 CLIR 技术研究的深入,CLIR 能够在将来普遍应用于搜索引擎之中。如今垂直跨媒体搜索引擎发展的如火如荼的良机之下,将来 CLIR 内容也不会局限于文档检索,而是扩展到跨语言图像检索、跨语言语音检索、跨语言视频检索、跨语言交互式检索、跨语言问答系统、跨语言新话题发现和跟踪等。 参考文献: 1中国互联网络信息中心.第 25 次中国互联网络发展状况统计报告.2010(1). 2Net craft.June 2010 Web Server Survey.http:/news.Net ml#more-2249.2010-06-16. 3吴丹.多语言处理技术数字图书馆的关键技术,2010(5). 4华薇娜.搜索引擎的最新进展述要.图书与情报,2009(6). 5郭华庚,赵英.跨语言信息检索研究与应用.现代情报,2008(9). 6杨丽.国外跨语言信息检索的技术研究综述.情报杂志,2008(7). 77刘伟成,孙吉红.跨语言信息检索进展研究.中国图书馆学报,2008(1).