我国网络搜索引擎研究现状及未来发展.doc

上传人:gs****r 文档编号:1738036 上传时间:2019-03-13 格式:DOC 页数:11 大小:118KB
下载 相关 举报
我国网络搜索引擎研究现状及未来发展.doc_第1页
第1页 / 共11页
我国网络搜索引擎研究现状及未来发展.doc_第2页
第2页 / 共11页
我国网络搜索引擎研究现状及未来发展.doc_第3页
第3页 / 共11页
我国网络搜索引擎研究现状及未来发展.doc_第4页
第4页 / 共11页
我国网络搜索引擎研究现状及未来发展.doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

1、1我国网络搜索引擎研究现状及未来发展(云南大学 公共管理学院,云南 昆明 650500) 【摘 要】网络时代,人们检索各种信息都离不开可种各样的搜索引擎,对搜索引擎的研究也越来越成为热点。文章主要针对我国网络搜索引擎研究的相关文献做出近十年的文献计量统计,分析了有关搜索引擎的类型、工作原理以及存在的不足并对未来发展做出展望。 【关键词】搜索引擎;现状分析;未来发展 随着互联网的高速发展,网络信息量激增,用户要想在浩瀚信息海洋中找到所需的资源就离不开网络搜索引擎。搜索引擎(Search Engine)是以一定的技术在互联网中搜索发现信息,并对信息进行提取与整合,为用户提供检索服务。由于技术的不断

2、成熟,从著名搜索引擎服务提供商到国内外软件工程师,都先后推出自己品牌的搜索引擎,对搜索引擎的也研究越来越成为热点。 一、数据来源和研究方法 (一)数据来源 中国知识资源总库(CNKI)的数据库之一中国学术期刊网络出版总库是国内最大的中文期刊全文数据库,本文以“中国全文期刊数据库”为检索工具,以“搜索引擎”为检索词,以篇名检索为入口,对 2004 至2013 这十年的期刊文献进行精确检索,并进行筛选、去重,最终得到5158 条文献数据。 2(二)研究方法 本文首先采用文献计量方法对相关文献的数量、著者分布、期刊分布、主要研究机构进行分析以揭示其研究现状。然后对数据进行抽样,选取发表时间为近五年即

3、 2009 -2013 年的核心期刊论文,对其所研究的主题内容进行分析并揭示出该领域的研究热点及发展趋势。 二、文献调研与搜索结果分析 (一)文献年份统计分析 表 1 文献年度统计 年份 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 篇数 163 491 546 638 690 689 640 585 492 218 发表文献的数量在一定程度上代表了某段时间某个领域的研究水平和发展趋势,经过对 2004 至 2013 年文献数量的分析统计(由于查询时间为 2013 年 8 月,因此 2013 年的数据并不具备参考价值,重点对 2004至 2

4、012 这九年进行分析) 。可以看出,2004 至 2009 年是相关研究的猛增期,在 2007 年有一个发展高峰,2008-2009 年达到顶峰。2010 年开始略有下降,应该是进入又一稳定发展时期。 (二)文献作者分析统计 表 2 最高发文量作者统计 序号 作者 作者单位 发文篇数 1 赵恒永 北京化工大学 11 2 维尼拉.木沙红 新疆大学 11 3 吕学强 北京信息科技大学 10 34 刘奕群 清华大学 9 5 张敏 清华大学 7 6 刘俊熙 上海政法大学 7 7 马少平 清华大学 7 8 杨晓江 南京师范大学 7 9 李村合 中国政法大学 7 10 崔志明 苏州大学 7 表 3 最高

5、被引作者统计 序号 第一作者 文献来源 发表年月 被引次数 1 印鉴 计算机工程 2005.07 127 2 余惠佳 中文信息学报 2007.01 111 3 刘畅 情报科学 2007.01 76 4 杨思洛 现代图书情报技术 2005.01 73 5 高琰 微机发展 2004.10 71 6 黄武双 知识产权 2007.09 61 7 蒋萍 微电子学与计算机 2004.12 59 8 李勇 计算机工程与科学 2008.03 57 9 陈新颜 现代情报 2004.09 57 10 罗丽珊 图书馆学研究 2006.12 53 发文量统计可识别该领域的高产作者,其中超过 5 篇的共有 28 位,但

6、由于很多为合著文章,我们只视第一作者是论文的主要责任者和撰写人,统计结果如表 2 所示。论文的被引频次可反映其学术影响力,截止4检索日被引次数前十的作者见表 3。 其中,发文量排名第一的是北京化工大学计算机系的赵恒永;被引量排名第一的是印鉴,第二的为余惠佳,与余惠佳合著的还有刘奕群、张敏、马少群,他们也都是发文量前十的作者。其中清华大学刘奕群博士和马少华教授还合著过搜索引擎技术基础一书。以上两表我们可以看出高产作者和高被引作者并不一致,这表明投入到搜索引擎这一研究领域的专家虽然很多,但专注于此的人并不多。 (三)文献高产机构统计 表 4 机构统计 排名 机构 发文量 排名 机构 发文量 1 电

7、子科技大学 61 11 清华大学 38 2 北京邮电大学 59 12 苏州大学 37 3 武汉大学 57 13 西安电子科技大学 57 4 北京大学 56 14 复旦大学 35 5 浙江大学 52 15 华南理工大学 34 6 武汉理工大学 49 16 南京大学 33 7 华中科技大学 48 17 郑州大学 31 8 吉林大学 48 18 北京交通大学 31 9 北京化工大学 41 19 中国石油大学(华东) 28 10 上海交通大学 39 20 天津大学 28 从论文数量上看,电子科技大学以 61 篇的数量排在第一位,排在第二的是北京邮电大学,其他排名比较靠前的还有,武汉大学、北京大学、5浙

8、江大学等。该领域的高产机构主要是我国发达地区的重点高校,其中武汉大学、北京大学、 南京大学和浙江大学皆是图书情报领域比较突出的研究机构,清华大学、吉林大学、电子科技大学是计算机科学领域领先的机构,同时也有少数综合实力不是很强的高校对搜索引擎研究较为突出。 (四)文献高产期刊统计 据统计,载文量在 25 篇以上的期刊有 39 种,所载论文总数为 1533篇,占所有论文的 29.7%;载文在 30 篇以上的期刊有 30 种,所载论文总数为 1290 篇,占所有论文的 25%;载文在 35 篇以上的有 21 钟,所在论文总数为 974 篇,占所有论文的 18.9%。其中 10 种期刊属于计算机软件与

9、应用领域,7 种期刊属于图书情报领域,另外 3 种是大学自创期刊。可以看出,对于搜索引擎的研究者主要来自以上两个领域。 表 5 期刊统计 排名 期刊 发文量 排名 期刊 发文量 1 电脑知识与技术 89 11 图书馆学研究 47 2 现代情报 71 12 北京邮电大学 45 3 科技情报开发与经济 61 13 计算机工程 43 4 计算机工程与设计 51 14 科技信息 41 5 福建电脑 51 15 软件导航 40 6 计算机世界 49 16 吉林大学 37 7 情报科学 48 17 情报探索 37 8 电子科技大学 48 18 计算机工程与应用 37 69 情报杂志 47 19 中国计算机

10、报 37 10 现代图书情报技术 47 20 微计算机信息 35 (五)高频关键词分析 表 6 高频词分析 排名 关键词 频次 排名 关键词 频次 1 搜索引擎 89 11 网络爬虫 47 2 数据检索 71 12 网络蜘蛛 45 3 元搜索引擎 61 13 互联网 43 4 Lucene 51 14 搜索引擎营销 41 5 垂直搜索引擎 51 15 索引 40 6 中文分词 49 16 数据挖掘 37 7 个性化 48 17 PageRank 37 8 搜索引擎优化 48 18 Nutch 37 9 垂直搜索 47 19 向量空间模型 37 10 本体 47 20 Google 35 排在第

11、一的关键词是“搜索引擎” ,也是本研究的基础所在。接下来是各种新兴搜索引擎,如元搜索引擎、垂直搜索引擎、个性化搜索引擎、智能搜索引擎等。第三类关键词属技术领域如 Luence、网络蜘蛛、网络爬虫和数字挖掘,它们很大程度上决定了搜索引擎的质量。最后 Google作为全球最大的搜索引擎也同时受到国内学者的关注。 三、研究主题总结 (一) 搜索引擎的工作原理 7搜索引擎的工作原理,可以分为五步:从互联网上抓取网页,建立索引数据库,在索引数据库中进行搜索,对搜索结果进行处理和排序,最后返回符合用户要求的检索结果。 具体过程为用户输入关键词后,蜘蛛(Spider)在互联网上沿着网页中的 URL 爬到其他

12、网页,并将爬过的所有网页收集回来。通过搜索系统程序对收集回来的网页进行分析并提取相关信息,用这些信息建立网页索引数据库,再从该数据库中找到符合关键词的所有相关网页,然后计算相关度并进行排序。同时,搜索引擎要定期重新访问所有网页,更新数据库,并根据网页文字和链接关系的改变重新排序,由页面生成系统将搜索结果的页面内容和链接地址等组织起来返回给用户。 (二)搜索引擎与相关法律保护 中国搜索市场上竞争正在进入白炽化状态,搜索引擎存在的众多法律风险也注定了在激烈市场竞争的同时也将会面临法律纠纷,包括商标侵权、网页复制、埋置链侵权等,发生在网络搜索服务商与广告商、用户以及网站与之间的各种知识产权纠纷也将越

13、来越多。加之网络非法内容的泛滥,网络搜索服务商不得不担负起更多的信息过滤与审查义务,政府也将加强这一领域的管理和控制。 结合实际情况,有学者给出了如下建议:(1)明确对搜索引擎服务商进行法律定性。 (2)明确搜索引擎服务商法律责任构建的目的所在。(3)协调好权利人与搜索引擎服务商的利益平衡,促进二者的合作,以打击网络侵权行为。 (三)搜索引擎的可靠性 8互联网为广大的网络用户提供了一个庞大的信息空间和自由获取信息的机会,而搜索引擎为用户找寻信息提供了指南,是获得信息资源的重要途径,能否得到社会认可,能否真正意义上推动技术创新和科技进步,质量的可靠性是根本。研究表明搜索引擎在一定程度上是可靠的,

14、但有时也会遇到干扰,为人们的网络生活带来不便。但在提高搜索引擎可靠性的同时,我们也许提高自己对信息的甄别能力。 通过对个体用户点击行为的上下文背景环境分析,可对用户在点击过程中的思维决策过程有所判断和定位,进而对点击的可靠性给予有效评估。基于信息嫡概念,用户提交查询和点击的确定性程度和用户点击的可靠性相关.,搜索结果位置也对结果的相关性有一定的影响,返回的首位结果可靠性较高。 (四)搜索引擎的类型与功能 搜索引擎的功能决定着能在多大程度上满足用户的需要,在搜索引擎的研究中有着非常重要的地位。信息膨胀速度远远超过了搜索引擎检索范围,一个搜索引擎通常不能找到用户所需的全部信息,用户在进行检索时需要

15、在多个搜索引擎间进行切换,在这种情况下,元搜索引擎出现了,它有效解决了独立搜索引擎信息覆盖率不足和查准率不高的问题,它增加了检索的范围,起到了整合网络资源的功能。 垂直搜索引擎是应用于搜索某一学科领域或某一类信息(如图像、影像)的专业搜索引擎,是搜索引擎的细分和延伸,是相对综合搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式。例如学术搜索引擎、农业搜索引擎、博客搜索引擎、人肉搜索引擎、9少儿搜索引擎、军事搜索引擎等,这此功能各异的搜索引擎是垂直搜索引擎的具体体现。此外,智能搜索引擎和个性化搜索引擎也是新兴的搜索引擎。 (五)搜索引擎的用户行为分析 用户既是搜索引擎的直接使

16、用者,也是服务质量的最终评判者。搜索引擎给网络用户带来巨大便捷的同时也暴露出了不少问题,要及时地解决这些问题,优化搜索引擎就需要大量的用户信息。尤其要关注用户在使用搜索引擎时不满意的方面,对大量的用户资料进行分析,制定出相应的优化措施。 最常用的方法是“流量分析” ,通过对流量分析,不仅可以发现用户访问网站的规律,还能够得知网站的主页浏览数,主页浏览数可用于测量访问者的整体状况。对用户的主要进入页面进行优化并重点维护,对主要的离开页面进行改进设计或删除。这样可减少搜索引擎的工作强度。同时,网站也需不断维护和更新,在访间高峰到来之前获得搜索引擎的青睐。 四、搜索引擎的现状及未来发展 由于社会分工

17、的加大,用户从事的职业有很大不同,不同用户对信息搜索也有不同的要求。由于综合性的搜索引擎收录多方面、多学科、多行业的信息,会搜索出许多不相关的信息,因而越来越多的专题性搜索引擎出现了。垂直(专业)搜索引擎只面向某一特定的领域,专注于自己的特长和核心技术,保证对该领域信息的完全收录与及时更新,是搜索引擎的一个发展趋势。同时业内的资深人士认为:纯粹的 Web 搜索由于受到 1E 的束缚而表现出应用能力偏低的特性,而基于桌面的搜索则10相当于一个“客户端+数据库”这样的应用模式,这也使得搜索功能的多样化、个性化成为可能,是搜索引擎的另一发展趋势。 此外,搜索引擎的智能化应不断提高,新一代搜索引擎应该

18、能够通过分析检索者的检索和浏览行为来判断检索者的需求,有选择地为检索者提供个性化的检索服务;用户界面应进一步完善,实现检索的可视化,使数据库内在的语义表述转化为可见的几何图形;多语种检测和翻译技术应得到提升。 五、结语 通过以上分析,可以看出搜索引擎的目标已经由发现信息转变为帮助用户解决问题,服务对象正从针对所有人转为特定人群,服务方式也由 web 检索提升为桌面检索,搜索引擎的发展正朝着更直观、精准、智能化、人性化的方向。所以改变查准率不高以及检索结果排序不合理的现状,满足各类互联网用户的需求,并在权利人利益与社会效应之间寻找到一个合适的度,通过立法或政策的形式加以确定,以缓解两者之间的利益冲突,是搜索引擎在未来发展中需要进一步完善的。这样那些为用户提供良好服务,同时不为了盈利而损害用户利益的搜索引擎才能得到很好的发展。 参考文献 1 罗丽姗.垂直搜索引擎发展概述J.图书馆学研究, 2006,12. 2 刘畅.综合搜索引擎与垂直搜索引擎的比较研究J.情报科学,2007,01. 3 黄武双.论搜索引擎网络服务提供商侵权责任的承担对现行

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 学科论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。