Web结构挖掘在电子商务网站结构优化中的应用.doc

上传人:99****p 文档编号:2010903 上传时间:2019-03-28 格式:DOC 页数:10 大小:31.50KB
下载 相关 举报
Web结构挖掘在电子商务网站结构优化中的应用.doc_第1页
第1页 / 共10页
Web结构挖掘在电子商务网站结构优化中的应用.doc_第2页
第2页 / 共10页
Web结构挖掘在电子商务网站结构优化中的应用.doc_第3页
第3页 / 共10页
Web结构挖掘在电子商务网站结构优化中的应用.doc_第4页
第4页 / 共10页
Web结构挖掘在电子商务网站结构优化中的应用.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、结构挖掘在电子商务网站结构优化中的应用摘要 本文概述了 Web 结构挖掘技术并描述了其常见算法。针对Web 结构挖掘算法,提出了提高网站结构合理性的对策。使用户通过优化网站结构来获取更多有效客户,扩大网站影响力,从而提升网站价值。关键词 Web 结构挖掘 网站结构 超链接 PageRank HITS一、前言网站的推广对电子商务网站而言尤为重要。网站在常用搜索引擎上的排名会直接影响到网站的推广和网站的运营效果。因网站的结构不同,即使内容相同,外观相同的网站,在常用搜索引擎中的排名也会不同。网站结构是否合理会影响到搜索引擎在网站页面上抓取的结果,从而影响到网站的排名。在实际应用中,常使用 PR(P

2、age Rank)值来判断网站结构是否合理, PR 值越高说明网站结构越合理,搜索引擎就会收录该网站更多的页面,为网站带来更多的流量。因此,提高网站结构的合理性,获取更高的 PR 值就显得尤为重要。只有用网站结构优化的理念去设计网站,才有可能设计一个成功的网站。基于 Web 的数据挖掘技术中的 Web结构挖掘( Web Structure Mining)则是判断网站结构是否合理的一个有效方法。使用 Web 结构挖掘方法可以提高网站结构的合理性,增加网站的 PR 值,扩大网站的流量。二、Web 结构挖掘的概念基于 Web 的数据挖掘是指使用数据挖掘技术在 Web 数据中发现潜在的、有用的模式或信

3、息。基于 Web 的数据挖掘一般可以分为三类:Web 内容挖掘(Web Content Mining) 、 Web 结构挖掘( Web Structure Mining)及 Web 用法挖掘(Web Usage Mining) 。其中 Web 结构挖掘是对 Web 的链接结构进行分析, 以对超链接分析来评估 Web 资源, 从而发现有用模式, 提高搜索质量及提高网站被抓取的可能性。Web 结构包括不同网页之间的超链接结构和网页内部用 HTML,XML 表示的树形结构,以及文档 URL 中的目录路径结构等。Web 页面之间的链接结构中包含了许多有用的信息,Web 结构挖掘是从 Web 结构中推导

4、知识,即对 Web 文档的结构进行挖掘,挖掘 Web 潜在的链接结构模式,通过分析网页间链接数量及对象来建立网站自身的链接结构模式。Web 结构挖掘的基本思想是将 Web 看成是一个巨大的以 Web 页面为节点、页面之间超链接为有向边所构成的一个网状结构的有向图,然后利用图论对 Web 的拓扑结构进行分析,从而确定其网站结构的合理性。Web 结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。HITS( Hypertext Induced Topic Search)和 PageRank 分别是查询相关算法和查询无关算法的代表。这些算法已经在实际的系统中实现和使用,并且取得了良好的效果。三、

5、Web 结构挖掘算法描述基于超链接分析的思想,Sergey Brin 和 Lawrence Page 在 1998 年提出了 PageRank 算法,同年 J. Kleinberg 提出了 HITS 算法,其他一些学者也相继提出了另外的链接分析算法,如 SALSA,PHITS,Bayesian 等算法。对超链接进行挖掘的两个典型的算法是:PageRank 算法及 HITS 算法。1.PageRank 算法 PageRank 算法是 Web 超链接结构分析中最成功的代表之一,该算法是评价网页权威性的一种重要工具。Google、Yahoo、Baidu 等都是基于该算法的搜索引擎。PageRank

6、算法基于 2 个前提,一是若网页 A 被多次引用,则 A 重要;若 A 被重要网页 B 引用,则 A 重要;B 的重要性被平均的传递到它所引用的网页。二是若用户访问网页 A,然后跟随 A 的导出链接向后浏览网页 B 而不退回 A,那么浏览 B 的概率就是 B 的 PageRank值。PageRank 在具体实现时会忽略掉页面的文本和其他内容,只考虑页面间的超链接。但由于网页的链接范围领域很广,链接的页面价值参差不齐,所以仅以简单的链接数量来判断网页的重要性是不真实客观的,所以其他研究者对 PageRank 算法提出了改进。改进的 PageRank 算法不仅考虑了网页引用数量,还根据页面的导入链

7、接的权重来计算页面的重要性。页面导入链接的权重由链接提供页面的重要性所决定,即当前页面的重要性主要由其他页面的重要性来决定,PageRank 算法就是从链接结构中获取网页的重要性。简单 PageRank 算法描述如下:PR(A) = (1-d) / N + d (PR(T1)/C(T1) + . + PR(Tn)/C(Tn)其中:PR(A):页面 A 的 PR 值, PR(Ti):页面 Ti 的 PR 值,页面 Ti 链向页面 A C(Ti):页面 Ti 链出的链接数量d:阻尼系数,取值在 01 之间N:互联网上所有网页的数量由此可见,PageRank 算法不以站点排序,页面 PR 值由独立的

8、页面决定。页面的 PR 值由链向它的页面的 PR 值决定,但每个链入页面的贡献值是不同的。如果 Ti 页面中链出越多,它对当前页面 A 的贡献就越小。A 的链入页面越多,其 PR 值也越高。阻尼系数的使用,减少了其他页面对当前页面 A 的排序贡献。所有页面的 PR 值形成了一个概率分布,所有页面的 PR 值之和为 1。简单 PageRank 算法也可以用矩阵来描述,设 T 为一个矩阵,T 的行和列对应页面集的页面。PageRank 的算法是将 T 的行和列互换后得到的矩阵 A。为了将各列矢量的总和变成 1(全概率),把各个列矢量除以各自的链接数(非零要素数), 即如果网页 i 有指向网页 j

9、的一个链接,则Aij=1/Ni,否则 Aij=0,就形成了一个 “推移概率行列” ,各个行矢量表示页面间的推移概率。由 T 倒置得到 A 的理由是,PageRank 并非重视“链接到多少地方”而是重视“被多少地方链接” 。PR 值的计算,就是求属于这个推移概率行列最大特性值的固有矢量。 2.HITS 算法 HITS 算法综合权衡了查询内容与页面链接的关系。HITS 算法认为网页的重要性依赖于用户提出的查询请求。HITS 算法通过两个评价权值内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权

10、威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高。HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。HITS 算法是一个“迭代收敛”的过程,在获取了一个与查询主题相关的返回页面根集合(Root Set)S 后,根据 S 中的页面的链接关系再向集合 S 中扩充与 S 中页面相链接的页面, 将 S 扩展成一个更大的基础集合(Base Set)T。可将 T 看作一个二分有向图 SG(V1,V2,E),其中:顶点集 Vl:T 中的 Hub 网页集

11、;顶点集 V2:T 中的 Authority 网页集;边集 E: Vl 中的网页到 V2 中的网页的超链接。对 V1 中的任一个顶点 v,用 h(v)表示网页 v 的 Hub 值,对 V2 中的顶点 u,用 a(u)表示网页的Authority 值。开始时 h(v)a(u)1,对 u 执行 I 操作修改它的 a(u),对 v 执行 O 操作修改它的 h(v),然后规范化 a(u) ,h(v) ,如此不断的重复计算下面的操作 I,O,直到 a(u) ,h(v)收敛。 I 操作:(1)O 操作:(2)每次迭代后需要对 a(u),h(v)进行规范化处理:式(1)反映了若一个网页由很多好的 Hub 指

12、向,则其权威值会相应增加(即权威值增加为所有指向它的网页的现有 Hub 值之和)。式(2)反映了若一个网页指向许多好的权威页,则 Hub 值也会相应增加(即 Hub 值增加为该网页链接的所有网页的权威值之和)。HITS 算法输出一组具有较大Hub 值的网页和具有较大权威值的网页。 HITS 算法存在的主要问题:(1)实际应用中,由 S 生成 T 的时间开销很昂贵;(2)站点内部网页在权威度数值上可相互加强;(3)网页中一些无关的链接影响 A,H 值的计算;(4)存在与查询主题无关的网页即主题漂移现象。四、应用 WEB 结构挖掘算法提高网站价值将 WEB 结构挖掘算法应用到自身网站的结构优化中来

13、,对提高网站的价值有着重要意义。网站结构优化包括两个方面,物理结构的优化与逻辑结构的优化。Web 结构挖掘所有算法都将网页中的链接(逻辑结构)作为主要挖掘的对象,特别在实际应用中,大多数用户都是使用基于PageRank 算法的 Google、Yahoo 和 Baidu 等搜索引擎。但网站物理结构的合理性也是影响网站价值的一个重要因素。因此采取以下几种策略,将有助于用户将网站定位到相关主题的权威站点,从而获得更高的 PR 值,以提高电子商务网站在搜索引擎的排名,提高检索结果的质量,提高网站的访问率, 提升网站的档次。1.网站物理结构优化网站物理结构是指网站真实的目录及文件所存储的位置所决定的结构

14、。网站物理结构优化不但关系到网站的易用性,还会影响到网站在搜索引擎上的排名。合理的网站物理结构可以让 Google 等搜索引擎轻松搜索到你网站的大多内容,收录你大量的页面,更多的关注你这个网站。虽然合理的链接可以取得一个比较理想的 PR 值,但由于 Web 结构挖掘过程是由机器搜索引擎蜘蛛(Spider)自动完成,因此就需要构建一个搜索引擎蜘蛛友好的网站物理结构。 要合理安排网站文件目录结构,使目录结构扁平,有序。网站的目录结构最好不要超过 3 层,因为每深一级目录,PageRank 降低 12 个分值。重要内容放在顶级目录。目录文件夹命名应含关键词,网页文件名也应含关键词。文件名是词组时应用

15、短横线而不要用下划线隔开。使用英文而不是拼音字母来命名文件及目录。如果目录超过三层,就应使用子域名来调整和简化目录结构层数。2.网站逻辑结构优化网站的逻辑结构(链接结构)是由网页间链接所形成的逻辑的或链接的一个网状结构。一般来说网页被一些“重量级”的网站链接的次数越多,PageRank 的值就会越高;同样,网页的链接指向越多,PageRank的值也会很高。搜索引擎在决定一个网站的排名时,不仅要对网页内容和结构进行分析,还围绕网站的链接展开分析,并给出相应的 PR 值。常用链接策略有:(1)尽可能多地让其他跟本站主题相关或互补的网站链接本站。(2)同 PR 值更高的网站进行相互链接。(3)在流量

16、大、知名度高、频繁更新的重要网站上出现本站链接。(4)与内容质量高、PR 值上升潜力大的网站链接。(5)与以本站关键词在搜索结果中排名前三页的网站进行链接,有了这些网站链接,即使不向搜索引擎提交网站,搜索引擎也自然找到并给予好的排名。(6)网站提供与主题相关的导出链接,尤其是被链接网站名称(或者栏目名称、文章摘要和标题等)中含有重要关键词时,会丰富自己网站的关键词并会被搜索引擎认为有丰富的与主题相关的内容,也有利于排名。(7)要确保网站内没有死链接,并保持网页内容或链接的稳定性和持久性。(8)站内页面链接可以为网页创造尽可能多被收录的机会。一个网站被收录的网页数量增加,即使网站首页的 PR 值

17、不高,也增加了网站总体的搜索引擎可见性。网站地图是所有页面的快速入口,是搜索引擎更全面索引收录网站的重要因素。它可以方便搜索引擎蜘蛛快速遍历网站所有需要发布的内容。网站地图的三大因素:文本、链接、 关键词,都极有利于搜索引擎抓取主要页面内容。动态生成目录的网站尤其需要创建网站地图。网站地图的导航能力会使访问者更容易找到所需的东西,且有利于搜索引擎收录更多的页面以及在搜索引擎中得到更高的 PR 值。将网站地图生成为XML 格式文件并存放在网站根目录中,并向搜索引擎提交,将有助于搜索引擎蜘蛛更快地遍历网站。3.页面代码优化 精简代码,减少页面的体积,不但使得网页可以得到更快的下载,而且还影响到搜索

18、引擎对该页面的收录及直接影响网站排名。搜索引擎倾向于在页面文件开始处查找本页的关键性内容,而不是文件的正文。因此要做到代码和页面分离,把 javascript 文件和 css 文件分别存放在js 和 css 外部文件中,把重要的页面内容放到页面顶部,以缩小文件体积,提高有效内容占页面体积的百分比,从而提高关键词在页面中的比重,以利于搜索引擎快速准确地抓取。另外格式化标签也尽量少用。页面布局应采用 DIV+CSS 模式并减少表格嵌套, 尽量不要使用很难被搜索引擎收录的 IFRAME 或 Frame 框架及对搜索引擎蜘蛛不友好的 Flush 动画等,并保持页面简洁,以利于搜索引擎的收录。五、结语目

19、前各大搜索引擎都采用了 Web 结构挖掘技术中的 PageRank 算法,为了提升自身网站在各大搜索引擎中的排名,用户应使用 Web 结构挖掘技术来对自身网站进行评估,发现自身网站结构的不足,并对优化网站结构提供决策依据。通过采取有效措施,提高自身网站结构的合理性,从而提高网站在搜索引擎中的排名,以达到为网站带来更大流量,发掘更多有效用户的目的。随着电子商务迅猛地发展,企业更应该重视并采用这种被挖掘的技术,以提高自身网站的价值。参考文献:1何晓阳吴强吴治蓉:HITS 算法与 PageRank 算法比较分析,情报杂志 2004 年第 2 期2王晓宇周傲:万维网的链接结构分析及其应用综述,软件学报3曹军:Google 的 PageRank 技术剖析,情报杂志 2002 年第 10 期4刘丽珍等:网络结构挖掘的关键分析.计算机应用研究,2003(5) 116-1185陈定权:Web 结构挖掘研究.情报理论与实践 ,2003(1) 59-616Sergey Brin,Lawrence Page,Google 的技术剖析,http:/www.51web.biz

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。