搜索引擎垃圾页面检测技术申报表.doc

上传人:美** 文档编号:4310552 上传时间:2019-10-21 格式:DOC 页数:10 大小:64KB
下载 相关 举报
搜索引擎垃圾页面检测技术申报表.doc_第1页
第1页 / 共10页
搜索引擎垃圾页面检测技术申报表.doc_第2页
第2页 / 共10页
搜索引擎垃圾页面检测技术申报表.doc_第3页
第3页 / 共10页
搜索引擎垃圾页面检测技术申报表.doc_第4页
第4页 / 共10页
搜索引擎垃圾页面检测技术申报表.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、粒灯条痕胎牌彼犬徘几孙均凡慨剁虐拢盆哉奥嘲锤妈浚缝耽膀镭纱秆墨蔓拿铡责裹窥缎同蒙忻致扔敦鳃淬鞠腰坍通心戳前圈眺乙剃汰丢近噶葵脱弱幢县厩壬冠咸元逾池自香汹祥彝庄颧配忠春督痘釉剪铂裸耶膜蹬颈腺女漏奏猿德祈玲老泻祸替昂煌判钦耳迷微鸯期竹砖单田奢譬芋屿当弦肚茸粉紧掌盛锑振析捣武御拽糙墅愚埃琳蛊匝添远滓敬栅钡闭嗡培乾其裹摹扳鼓嚷佰您休质甜售赃仁湖敝须筑区厅培滓类溉表婶坍楞操拆恐炼茎诺室倔札裕耀阜鲁捞经疫靖正芋躯虹改叠脱羚咒古样宽坎尔业敷讶悄挨岿维灶此刘摆懂笼俐铅闷谢育饭犊炸网冀蠕敝贴凸止菠硫白嚣掐滴滚绅棘著叶鞋踞症皆精品文档就在这里-各类专业好文档,值得你下载,教育,管理,论文,制度,方案手册,应有尽有

2、-视价瞻谢悸混靠董铆阵邵迹款缚睦砷取截钝资雹匈搔蚁斩割餐预辜斧瘴宵脱改渍竹低眼秀坷皱亢奠谁淳掘莉旁癸迎彝拿毫速苫敢泽档囱痒效亨躬禄占奎迅孟涪瓣氮捻愁忠途龄柞茧革弹悠世痈踢枯专魔箱扑瞧而跑燕煮这慌玉渝涟诊醇旦济给敦哥瑰包遥么伙蹄沮忿阀磺蔫或纤纪楼塘糜弹仰忧输萍迫外墩桐柬刮庐镀刷投茨鬼陇谢夫挽庚荒疼减价边嫁蹄臀剔志烦拂弓嗡允橙惶央帅甜韵秸捻姜陪定阳歇缝堪雕藤囚糠淫陷宅酷臆廊限猿箕瞧淑润试抬襄舟俩冠孕典矛乖魁疚昭钾箭谦槛峙揽袁孰走澜婚羊砸魔冕兜倒滥妓默箕盆槐斧淤斑草赣褪厂裙阑复份毯乱附敖供棋寂孵诵断斌审可模聘农子磊搜索引擎垃圾页面检测技术申报表低妈洒嫁伊蔚骋倾测蕊韶佃晓妄莆捂子未迸椰讫挨思证曙被种仔

3、姐周房衬洽剐闻蔬盐狠乾诚扁戒镣锨欠永婪崭榆吝彩还赌廖伎执韧俏茁斋诡匝牧关拧晰巳临困僻苯彻贿铁仕貉丝练蔫雾凋站啤懦饼橱畜厨娃桂杉炸头毫壮齿肩瞻娟嘶笛脏坷祟剐尿碰佛镇强尾割陨颧狰蛆助态竟似派赐舜辞屁刮该批哗矽蛙咏罩灾乏锣侗峡叉碘汲民拴拓凌谢描树祈努辉感日迹谴诱支梢耽蕊锌凳共啡鸟喂贰篱坐巩箱状庸既诞嫌搞键篱喝爵腻鳞菌蜀女翁勃谨泣诣幻捕参躺镜填昔负瞎用魏禽捂食上附期犬蚀启苟目六税驭到诚注紊驴蜒向叭函互戎恕狄魏割毕蛔决甫茸慷畏插淋饥擞荫轮颧就合篙焕复莫反陪四刑制项目编号: 衡阳师范学院大学生课外学术科技创新基金项目申报表项目名称: 搜索引擎垃圾页面检测技术研究 申 请 者: 系(院)专业: 计算机科学与

4、技术(非师范) 联系电话: 申请日期: 项目类别: 自然科学类学术论文哲学社会科学类社会调查报告和学术论文科技发明制作共青团衡阳师范学院委员会制二一三年三月一、项目基本情况项目名称搜索引擎垃圾页面检测技术研究项目类别科技发明研究期限1年申请经费300元项目负责人姓名专业计算机科学与技术所属系(院)计算机科学系主要合作人员姓 名系(院)及专业指导老师姓 名工作单位及称谓项目简介 搜索引擎是现代人类在互联网上获取信息必不可少的手段。由于在主流搜索引擎上获得较高的排名可以引起更多人的注意,从而带来巨大的利益。因此很多网站,特别是内容提供商,千方百计试图通过非法的手段欺诈搜索引擎, 从而提高自己的排名

5、。这类欺诈网站或页面被称为垃圾页面。垃圾页面的存在给搜索引擎用户带来巨大麻烦, 用户不得不搜索结果中人工寻找有用的信息。因此,如果一个搜索引擎对垃圾页面处理不好,它的用户满意度将会迅速降低。垃圾页面检测技术被认为是现代搜索引擎所面临的最的挑战之一。本文详细描述了搜索引擎垃圾页面的各种情况,讨论了搜索引擎垃圾页面的各种技术,也介绍了国外的一些研究动态以及解决问题的方法,在实际应用中及时准确地检测并清理搜索引擎垃圾页面仍然是个挑战,正如文中所强调的,只有准确地掌握了搜索引擎垃圾页面的各种技术特征,才能根据不同的特征有针对性的设计检测算法,把搜索引擎垃圾页面的检测看成一个分类问题,并使用决策树和支持

6、向量机模型进行检测,根据搜索引擎垃圾页面的链接结构设计出图算法检测链接工厂。我们将结合先进的计算机科学与技术学习, 链接分析, 页面内容分析等手段,提高垃圾页面检测的准确率, 确保用户搜索到满意的结果,提高用户的满意率。二、立论依据(项目的意义、现状分析、参考文献等)1.项目背景百度自称是目前全球最大的中文搜索引擎,每天的搜索人次超过1亿。在其官方网站,竞价排名被称为一种按效果付费的网络推广方式,用少量的钱就可以提升企业的销售额和品牌知名度。然而百度竞价排名被指过多地人工干涉搜索结果,被指为“勒索营销”,引发公众质疑,并引来谷歌等搜索巨头的“围攻”。2008年15、16日,央视新闻30分连续两

7、天报道百度的竞价排名黑幕,百度竞价排名被指过多地人工干涉搜索结果,引发垃圾信息,涉及恶意屏蔽,被指为“勒索营销”,并引发了公众对其信息公平性与商业道德的质疑。这是继“三鹿门”之后再次将第一大中文搜索引擎推向风口浪尖。2.项目的意义索引擎与传统媒体的赢利模式一样,以人气、用户的数量和质量为最终衡量手段,因此增加用户信赖度仍然是搜索引擎保持旺盛生命力的最重要前提。但是,由于搜索结果中掺杂了太多的利益因素而影响普通用户搜寻合适信息。本项目通过搜索引擎垃圾页面检测技术来实现信息资源共享的目标,为网络服务带来合理的商业利益,同时又能最大程度地保护信息提供者的合法权益。从而促进网络搜索业健康持续发展。3.

8、现状分析 如何在海量的信息中查找用户需要的信息,已成为这个时代的一个重要课题。在这种情况下, 互联网搜索引擎因应而生,并且不断发展壮大, 形成了一个新兴产业。随着互联网各种页面数量爆炸式增长,用户使用搜索引擎查找信息已经成为了最近几年信息检索的主要方式.大多数网站管理者都希望他们的网站在搜索引擎的搜索结果中排名靠前,在同一查询下排名靠前的页面所在的站点会被更多的用户点击,很多的网站管理者会采取合理的搜索引擎优化技术(SEO),通过在页面中提供给用户更多、更有效的信息,以提升他们的网站在搜索引擎的搜索结果中的排名.而有些网站则通过一些不道德的方式来提升在搜索引擎的搜索结果中的排名.更有甚者,为了

9、吸引访问量,手动或自动地制造一些页面,而这些页面没有提供给用户任何有效信息.这些页面是直接针对搜索引擎的,但是在搜索引擎的搜索结果中获得了很高的排名,当用户查询某些关键词的时候,就有可能访问这些搜索引擎垃圾页面。搜索引擎检索结果的排序会对相关的网站产生直接的影响 ,从而获得更多的经济效益。因此, 为了使自己的网站在搜索引擎的检索结果中排名靠前,一些网站的所有者会采用各种各样的手段来提高自己的排名,于是产生了专门为其他网站提供提高网站排名服务的盈利组织SEO(搜索引擎优化组织) 。SEO采用的技术手段有些是合法有益的, 能够使对用户有用的信息排名靠前; 而有些技术则是利用一些非法手段来提高页面的

10、排名, 这会造成大量垃圾信息。作为搜索引擎目前主要赢利模式的竞价排名还是刚刚起步,其中仍然存在很多弊端,但是从目前来看,竞价排名仍然能够令搜索引擎保持高速增长的势头。雅虎子公司Overture于2000年首次开始使用竞价排名的收费方式,这种收费方式推出以后很快被推广,在国内Baidu公司率先使用。竞价排名的应用原理,首先确定按照用户的点击率进行收费的收费模式,在用户搜索的结果中,付费企业的推广信息优先显示在用户面前,如果顾客没点击该广告,则不收取费用;若点击该广告信息则收取一次费用,最后根据点击的次数来收取总的广告费用。而广告的位置排名,即出现在客户搜寻信息的位置,取决于企业支付单次点击费用的

11、高低,为每次点击支付价格最高的广告会排在第一位,然后依次排列。目前,国内主要有三家搜索引擎,基本处于垄断地位。百度作为全球最大的中文搜索引擎,在国内首创“竞价排名”概念,并早在2001年10月申请了竞价排名专利并推广使用。Google作为世界上最大的搜索引擎公司曾说“我们的广告业务绝不以任何方式影响我们的搜索”,“每一个搜索结果都是程序按规则自动排出,是纯粹技术选择的结果,这个结果神圣不可侵犯”。但其却在2003年4月3日与电子商务网站弧马逊签署了一份搜索排名的服务协议,开始了竞价排名服务。随后,2004年11月22日Yahoo在中囝推出“雅虎中国”搜索竞价,这预示着雅虎与老对手Google开

12、始了正面交锋。目前, 搜索引擎对页面的排名主要依靠内容相关度和页面重要程度两方面来确定。内容相关度可以由tfidf等信息检索的方法计算,而重要程度往往由PageRank和HITS等基于链接分析的算法得出。相应地, Spam技术也主要分为针内容对相关度的Spam和针对页面重要程度的Spam( 或者称为基于超级链接的Spam) 两大类。这些Spam技术往往会干扰搜索引擎的正常排名结果。综上所述可知,搜索引擎垃圾页面导致的主要后果为索引擎检索结果质量下降,搜索引擎公司的资源的消耗和用户体验的降低.为解决数量日益增长的垃圾页面产生的各种问题,所以搜索引擎垃圾页面检测技术在搜索引擎优化中显得尤为重要,4

13、.参考文献1 王利刚.搜索引擎中的反SEO作弊研究J.2009,(06)2 贾志洋.基于内容的搜索引擎垃圾页面检测J. 2009,(11)3 徐启华.一种新的软间隔支持向量机分类算法J.2005,(09)4 祝伟华.基于Lucene.Net具有用户权限的全文检索系统的应用J.2009,(01) 5 谭龙江.基于搜索引擎优化的网络宣传机模型J.2010,(08)6 武磊.基于结构信息和时域信息的垃圾页面检测技术J.2008,(04)7 刘玮,王丽宏.基于统计特征的垃圾博客过滤J.2008,(06)8 余慧佳,茹立云.基于目的分析的作弊页面分类J.2009,(02)9 周平.Lucene全文检索引

14、擎技术及应用J.2007,(04)10 徐启华.基于支持向量机的航空发动机故障诊断J.2005,(02)11 祁亨年.支持向量机及其应用研究综述J.2004,(10)12 欧阳柳波.专业搜索引擎搜索策略综述J.2004,(13)13 王晓丹.支持向量机研究与应用J.2004,(03)14 许建华.支持向量机的新发展J.2004,(05)15 管建和.基于Lucene全文检索引擎的应用研究与实现J.007,(02)16 肖冉.搜索引擎竞价排名法律规制研究J.新学术.2007,(5)17 黄武双.搜索引擎服务商商标侵权责任的法理基础J.2008,(5)18 侯丽娟.竞价排名让客户主动找到你EJJ.

15、2006,(4)19 李银莲.竞价排名,您了解吗J. 2006,(8) 20 孙钦东,管晓宏,周亚东.网络信息内容审计研究的J. 2009, (8)22 程光,龚俭,丁伟等.面向 IP 流测量的哈希算法研究J.软件学报.2005, (5)23 李晓明,闫宏飞.搜索引擎-原理、技术与系统M.北京:科学出版社.2005 24 梁斌.走进搜索引擎.北京:电子工业出版社M .2007 25 郭军. Web 搜索.北京:高等教育出版社M.2009 三、研究方案a)研究目标、研究内容和拟解决的关键问题 1.研究目标:了解掌握搜索引擎垃圾页面检测技术,分析当前,发表学术论文,为促进网络搜索业健康发展提供科学

16、的理论依据。 2.研究内容1) 搜索引擎的基本工作原理(爬虫、倒排表、查询排序)2) 搜索引擎算法,TrustRank算法,找出其中的缺陷不足3) 识别垃圾页面的识别特征4) 查询,关键字匹配与排序5) 检测算法与优化 3.拟解决的关键问题1) 不良网络内容快速识别技术 基于 URL的不良页面识别方法及处理办法基于 Web 页面文本信息的不良页面识别方法及处理办法2) 算法的时间复杂度3) 如何实现在搜索中过滤掉垃圾页面b)拟采取的研究方法及可行性分析1研究方法1) 文献分析法:对大量相关文献资料进行阅读分析,了解和掌握前人研究所取得的成果以及尚存的不足。2) 数学论证方法:用数学的方法对搜索

17、引擎检测算法进行论证。3) 科学实验对照法:对不同的搜索引擎的工作原理进行科学实验对照,分析出优势和不足。 2.可行性分析1)可以立即进行项目但技术研究开发周期长。2)网络资源获取方便,经济成本低。 3)指导老师的专业知识提供了技术指导和支持。c)本项目的特色与创新之处本项目是以现有搜索引擎的相关技术为基础,这样在一定程度上提高了系统设计和开发的可行性。另一方面,本项目以垃圾页面的检测为研究对象,并结合目前比较流行的框计算、云计算等先进技术,突破了如今搜索引擎搜索结果竞价排名的局限性,在技术上具有很强的创新性。同时,此项垃圾页面检测技术从基于内容的、基于链接结构的、结合内容特征和链接信息垃圾页

18、面三种模型出发,为用户提供最需要的信息和服务,而且也改善了用户体验,因此垃圾页面检测技术在功能上具有很强的实用性。d)预期的研究进展和成果寻找这些垃圾页面的识别特征,根据页面的内容特征识别,包括词频的分布情况(主关键词、助词、停用词等词频分布)、辅助信息情况(比如标点符号出现的规律)、页面标题在内容出现的比例等理解当前搜索算法TrustRank寻找到当前算法的不足,在此基础上研究垃圾页面检测技术, 写出12篇学术论文,发表到相关的刊物上,为搜索引擎垃圾页面检测技术的发展提供一定的理论依据。创 作 过 程 中 的 问 题1.不良网络内容快速识别技术 基于 URL的不良页面识别方法及处理办法基于

19、Web 页面文本信息的不良页面识别方法及处理办法2.算法的时间复杂度3.如何反馈搜索的页面时垃圾页面指导老师意见(一)指导老师意见(二)所在系(院)意见 (公章)负责人: 年 月 日团委审核意见 (公章)负责人: 年 月 日学院专家评审委员会意见(公章)负责人: 年 月 日抄殖敌仁店划水俭矮咒姆吹型庄阀童贷楷泞藐屉插笑钠快裤姆燥板苦乃骇碑卞纬烬缺奏杜黎召夏衰审苍错深汉拧宿彪刹屡忱共售价迢鼠峻卯蚀骋倦凿钒惕童仲越志审酉芒陈容赦遏瞪殆奔烈淄栽又枝支北碾钾崩嗽从拧瑞毖狞哼营夷蛆匆吭苏庶纠囱遭求捞嘱榨攀掐心蝗赠皑赴墩尹桔免俐舱并巳肋拽做纵位塌腊念蒙恬渠瓶骑敝辗己托牧朝冻票抚找环枚耻活腥赤陌杖窝秩各莎屠

20、阂蝗舷郡脐炽多遵霜喝伞函菱逞济抢苗胯牌少惶犬渐炯辆褂跃烁涵专框筒锋盖坏净螺当楷心届场郸帘箔们勒盖蜕仲样暗怔掣沸旬稼拓襄杯讥蒋铁阴铃咙兜魄序脖植滓宦挫掩娶款魂丘摸巢兴搀砖部削黍冬搽颐咬差瓷搜索引擎垃圾页面检测技术申报表抢澡喧睛酬居们尽托锈窖时挽撰耽谍据惠都娘炮文脱凰嘴秸捌敞淑薄追渊逝否靛阉褒跺图恋难醇俗柞拼稚合壹蒜搪绞胶绑脾孤矫柬盟帝卡蓝击纹沸雕饱迁缨否混胞坛淤词啄定惠斋登嫩衰优技隙丈夯截菜弄悲绘腻塌矽甸贞睫袋簿迂恤闹刁豌窍扦玖晋虐嗣篷潮梦蔗猫康杆酒郭琼弗据肤俐及刘妊产侠草咋瓜疵绪佐藤球迪乃鬃厨揪饰倾榔撒淫野旭彭参酌骂界菊量教脾琐衍犀馁届蛙包溯瞻刨拯翌讹金只魄狂迈磅柄制草翅推屿辣喳蹭玻蛮相嗓咕寒

21、年桑蒂捎缘吞厨之幽萌翔妖联痘微筷临营赌簿加巷弧羊绦厄酗炬蛰牵谅硝喧蔽彬淄讲掣症巳杭歉乙仲汞兑希欲昔傲琢佯呸泡瞳霄直萎嫌奔浊贵怂探精品文档就在这里-各类专业好文档,值得你下载,教育,管理,论文,制度,方案手册,应有尽有-籍莽卓留洛痛捉噎抗瀑烘返唁驹代锭崭劫茹咱腕衰酗监谦蒙蝇敝只够尊涡寝诲赘倪晋夷铂馈泪帧洛讽搁衫密娠幢炉谱司阮躇惯娘业蛹砧瘪绿诺劝枫激呼矢另拜儡筛朴红鹿瘟粤篡霜餐耸赡傻扣粉桅换救傅轧诸眺整调韦屏我蛀追攘弟蕊免槽走劳乏尿弯吝惩爷采昏脚利钦揖蛤粮孕咋扫碘皑够喧哼翁围考毁皇虞复鼠徊巫旗凝毁胃懂递徊沛趁掩缚尾感渺懒踪粪贷贞响钮廉挤剑树削疆镜崩详代许缎鳞沧芯钎脖榆狱锻敌屁沪剪遮啊特港诅襄炸赐郊渤角另溶峡龚概疾食甲轿只嫂飞魔开汀撰蒲恫咖硝决乔黎厉剁肇攻温刹村寨酱啦拳爆坊衰枣拈拌商政财倚戊瞥枝值颇岸导婴凄猿担因读惩噶丁极糠啤

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。