钓鱼网站检测算法.doc

上传人:sk****8 文档编号:3124953 上传时间:2019-05-22 格式:DOC 页数:10 大小:816.50KB
下载 相关 举报
钓鱼网站检测算法.doc_第1页
第1页 / 共10页
钓鱼网站检测算法.doc_第2页
第2页 / 共10页
钓鱼网站检测算法.doc_第3页
第3页 / 共10页
钓鱼网站检测算法.doc_第4页
第4页 / 共10页
钓鱼网站检测算法.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、计算机学报2009 年 5 期 本文得到国家自然科学基金(90604004) 、江苏省自然科学基金(BK2007708) 、江苏省“网络与信息安全”重点实验室(编号:BM2003201)和 “计算机网络和信息集成 ”教育部重点实验室(编号:93K-9)和科技部国际科技合作项目(数字身份技术研究与开发)的资助.基于嵌套 EMD 的钓鱼网页检测算法曹玖新 毛 波 罗军舟 刘 波(东南大学 计算机科学与工程学院, 江苏省 南京市 210096)(江苏省网络与信息安全重点实验室, 江苏省 南京市 210096)(计算机网络和信息集成教育部重点实验室, 江苏省 南京市 210096)摘 要 网络钓鱼(W

2、eb Phishing)以相似网站欺诈用户、骗取个人机密信息,已成为电子金融活动的重大威胁。对此,本文提出了一个钓鱼网页检测 架构。在具体 检测机制方面,提出了一个基于嵌套 EMD(Nested Earth Movers Distance)的网页相度似判定算法,对 web 图像进行分割,抽取子图特征并构建网页的 ARG(Attributed Relational Graph),在计算不同 ARG 属性距离的基础上,采用嵌套 EMD 方法 计算网页的相似度, 实现了对钓鱼网站的检测,实验结果表明,与国际现有研究成果相比,本算法具有较高的精度和较强的适应性。关键词 钓鱼网页检测; 网页分割; 特征

3、图;嵌套 EMD;相似度中图法分类号 TP3931 引言 网络钓鱼是指那些利用与原网页极其相似的假冒网页骗取用户个人信息(如银行帐号,密码等)的行为。随着电子商务等网络应用的快速发展,网络钓鱼的危害逐年增加 ,这引起了产业界和学术界广泛的关注,并提出了一系列的防范措施。现有的反网络钓鱼技术可以分为三大类:基于服务器的防范,基于浏览器的防范和独立的第三方检测。基于服务器的防范指服务器通过认证来防范网络钓鱼,例如电子证书,动态安全皮肤 1等。基于浏览器的防范措施通过嵌入浏览器的插件来提示用户。独立的第三方防范措施主要目的是发现并共享钓鱼网站相关信息,包括电子邮件检测 2,网络行为检测 3,个人信息

4、保护 4,网页异常检测 5,实时黑名单,以及网页相似性检测等 6,7。由于钓鱼网站能绕过服务器,基于服务器的措施无法有效地防范网络钓鱼。基于浏览器的措施需要第三方提供的钓鱼网站黑名单,因此,钓鱼网站的检测是防范网络钓鱼的基础。但由于网络钓鱼的复杂性,仅使用单一的检测防范措施难以达到预期效果,对此本文提出了一套完整的钓鱼网页检测体系架构,并深入研究了钓鱼网页检测的核心算法网页相似性检测算法。本文所提出的钓鱼网站检测体系包括垃圾邮件检测,网络钓鱼分析节点以及网络钓鱼控制中心三个部分。网页相似性检测算法则包括网页图像的分割、特征抽取、位置关系向量矩阵形成、子块关系(ARG)生成以及嵌套 EMD 距离

5、的计算等步骤,实验证实该算法可以有效的检测出两个网页的相似性。本文的组织结构如下:第二部分给出了国内外的相关研究现状,第三部分给出钓鱼网页检测体系构架,第四部分介绍网页相似性检测算法,实验结果在第五部分给出,最后对我们的工作进行总结。2 相关工作目前,钓鱼网页检测研究集中在网页异常检测,网络行为检测,以及基于视觉的钓鱼网页检测等几个方面。Ying Pan 等 5提出了一种基于网页异常的检测,该方法基于网页的 DOM 结构,使用 SVM(Support Vector Machine)检测钓鱼网页,但该方http:/www.apwg.org. APWG Report January 2007法无法

6、处理网页中的图片,从而大大降低了算法的准确性。2Madhusudhanan 等 3则通过模拟用户的行为检测钓鱼网站,但该方法无法防范桥接攻击和网站的机器人检测手段。基于视觉的检测分为基于 HTML 文本的匹配和基于图像的匹配。由于 HTML 语言的灵活性以及网页元素的动态性和丰富性,仿冒者可以轻易地做出看上去一样但 HTML 结构完全不同的网页,对此基于HTML 的匹配将完全失效。而基于图像的网页相似检测方法根据人的视觉原理,对网页的视觉相似度进行判定,因而是一种高效和通用的检测方法 6。Cordero等 提出了一种使用 SVM 的网页图像检测算法,但该方法只能用于某个网站的检测,同时数学特性

7、十分复杂。A.Y. Fu 等提出了一种基于像素及其位置的EMD 距离的匹配算法,从其实验结果可以看出效果要明显好于基于 HTML 内容的检测,但该算法只考虑了网页图像中的颜色及其分布特点,没有考虑网页中不同部分之间的位置关系,根据格斯塔视觉原理8,相对位置在人的视觉中占主要地位,特别是多个形体间的相对位置关系,相对位置关系的变化必然导致视觉上的区别,而该算法由于没有考虑相对位置因素可能导致相似检测的失效。针对相关工作的不足,本文提出了一种高效钓鱼网页检测算法基于图像分割和嵌套 EMD 的钓鱼网页检测算法,该方法通过对网页图像进行分割、子图特征提取、嵌套 EMD 距离计算等步骤构建网页的 ARG

8、(Attribute Relation Graph) ,从而对其进行匹配计算并获得可疑网页与受保护网页直接的视觉相似度,最终完成钓鱼网页的检测判定。EMD(Earth Movers Distance)是一种用于判断两个特征集之间距离的数学方法,该方法源自著名的运输问题。而嵌套 EMD 则是 D.H.Kim 等提出的一种图的匹配算法 9,该算法可以更有效地处理多维特征向量并具有很高的抗噪性能。3 钓鱼网页检测体系随着网络钓鱼的国际化、专业化,要应对该威胁,必须找到一个能联合各方力量(包括研究机构,政府,银行,服务提供商,用户等)并基于现有安全基础设施的易部署、可管理的网络钓鱼防范体系。基于以上思

9、路,我们提出了的钓鱼网站检测体系架构,如图 1 所示:该体系以电子邮件作为入手点(电子邮件发布欺骗网页是网络钓鱼的主要手段) ,通过邮件服务器,网络钓鱼分析节点,网络钓鱼控制中心三级防范措施,检测并发现钓鱼网站,同时通过向钓鱼目标(如银行)发出警告,并通过银行提醒广大用户,图 1 钓鱼网站检测体系架构或向公安机关报警从而在尽可能短的时间内取缔钓鱼网站。整个系统还可以收集钓鱼网站的相关证据,并依此作为起诉相关责任人员的法律依据。该检测体系主要包括三个部分垃圾邮件分析器,网络钓鱼分析节点,以及网络钓鱼控制中心。Http:/www.cs.berkeley.edu/asimma/294-fall06/

10、 projects/reports/corder.pdf垃圾邮件分析器位于各个邮件服务提供商的邮件服务器上,目前垃圾邮件过滤已经成为电子邮件服务的必3-备功能之一,基于该功能,通过加入相关的钓鱼邮件检测模块则可以容易的收集到可疑的钓鱼邮件,以进行进一步的分析。网络钓鱼分析节点可以位于邮件服务器或由第三方提供,该节点通过收集垃圾邮件分析器提供的可疑钓鱼邮件,对可疑邮件进行内容提取得到邮件指向的可疑网站,通过实时黑名单,URL 检测和网页检测等手段初步判断该网站是否为钓鱼网站,如果发现钓鱼网站则通知相关的邮件服务器,并将检测结果发送到网络钓鱼控制中心;如果无法确定则将相关信息发送给网络钓鱼控制中心

11、做进一步的检测。网络钓鱼控制中心一方面要维护钓鱼网站黑名单以及受保护网页数据库;另一方面要负责同银行等钓鱼目标的交互,并收集相关证据,同时完成对钓鱼网站的检测判别,该中心需要处理的任务十分庞大,因此网络钓鱼控制中心应该具有分布式结构。该体系能够及时检测钓鱼邮件的分发并采取抑制措施,实时地对钓鱼网页进行判别;保护关键网站(如银行登陆页面)并能通过公安机关或运营商及时取缔仿冒网站;最大限度的收集网络钓鱼的犯罪证据,为执法机关提供破案,审判以及量刑的依据,同时维护广大用户的权益,帮助受害者挽回损失。4 网页相似性判断算法在整个方法体系中,如何准确的对钓鱼网页进行检测是必须要解决的关键技术问题。由于几

12、乎所有的钓鱼网页都与原网页十分相似(诱导用户输入敏感信息,如果不相似则容易引起用户的警觉) ,基于此我们提出了基于图像分割和嵌套 EMD 的网页相似性判断算法。该算法通过对网页图像进行分割、子图特征提取、嵌套 EMD 距离计算等步骤构建网页的ARG(Attribute Relation Graph) ,从而对其进行匹配计算并获得可疑网页与受保护网页直接的视觉相似度,最终完成钓鱼网页的检测判定。4.1 网页图像分割由于绝大多数网页都是由块(block)所组成的,因此这些块的特征及其在网页中的分布就决定了网页的视觉特性。我们提出了一个网页分割算法,该算法从视觉上将网页分为各个子块。首先网页通过浏览

13、器接口或软件(如 HtmltoJPG)将网页转换为图片,并以此作为本文分割算法的输入。算法如下所述:a) 图片预处理首先将输入图片转换为灰度图像,再使用特定算法(如 Canny 等)进行边界检测,得到边界图片(0为背景,1 为边界) 。b) 迭代处理假设输入二值边界图片为 BW,待分割区域为P1(x1,y1),P 2(x2,y2)图片的边界点,迭代进行一下五个步骤,直到所有的子图都无法再分割。. 收缩。检测出非 0 像素的边界,即求出包含所有非 0 象素的最小矩形区域 Pmin(xmin, ymin),Pmax(xmax, ymax);. 判断该区域是否需要继续分割。如果该区符太窄或太短则不进

14、行分割,并将 Pmax和 Pmin 记为 BW 的一个块,否则继续分割;. 检测分割带。分割代是指可能将该区域分为两部分的区域,根据网页的特点有水平和垂直两种。分割带既可以由 0构成(代表背景) ,也可以由 1 构成(代表边界) 。首先在 Pmax 和 Pmin 之间,分别在水平和垂直方向上进行检测,如果某一行或列的构成趋于一致(绝大部分像素都为 0 或 1)则该行或列为一个分割带;然后合并分割带,分别在水平和垂直方向将相邻的分割带合并成一个具有宽度的分割带。如果未检测出分割带则说明该部分不可分割,并将 Pmax 和 Pmin 记为 BW 的一个部分。. 选择分割带。如果检测出了分割带则可根据

15、某种策略选择其中之一作为依据分割 BW。选择的策略一般为:优先选择边界分割带;优先选择宽背景分割带;如果当前图像为长条状则优先选择水平分割带,否则选择垂直分割带;. 根据选择的分割带将图片分为两部分,并对这两部分分别重复 a-e 的检测过程。经过以上算法,得到的关键区域均为矩形,这也符合网页中基本元素都为矩形的特点。如果需要检测边界内部,则可在收缩时将边界除去,网页分割效果如图 2 所示。4-(a) 分割前 (b) 分割后图 2 网页分割4.2 特征图的生成网页的特征关系图(ARG)包括组成该网页每个块的特征(本文采用彩色、灰度直方图以及长宽表示)和块之间的相对位置关系(使用一个 9 维向量描

16、述) 。首先对网页中的每个块提取其特征(彩色、灰度直方图和长宽) ,再根据块的位置分布,计算出块与块之间的相对位置关系,具体如以下小节。 a) 关键区域特征提取块的特征由一个特征向量表示 V=S, H, G。其中 S=w, h为区域边界形状(包括长和宽) ,H 为彩色直方图,G 为灰度直方图。其中边界形状用于描述区域内形状相关的特性,彩色和灰度直方图用于描述颜色信息,具体计算如下: 边界形状 S。由分割的结果直接给出 S=w, h,本文采用长和宽表示。 彩色直方图 H。将原图从 RGB 空间转换至HSV 空间,并将 HSV 空间非均匀量化为 32 种颜色,具体量化方法参见 10,彩色直方图特征

17、向量 H的定义由公式(1)给出: 10,.,12nkknchchH(1)其中 hck表示第 k 种颜色象素的频数,即(2)heigtwidt0),(1hij kkorsjQfc 灰度直方图 G。将原图由 RGB 空间转换到灰度空间,并将灰度空间量化为 32 个灰度等级,量化公式为 v=(v0*32)/(vmax-vmin+1),其中 v0 是原灰度等级,v max 是该子图中最大灰度,v min 为最小灰度,v为量化后灰度。量化后统计各灰度出现的频数,得到灰度直方图特征向量 G,(3)10,.12nkknvg其中 gvk表示第 k 种象素的灰度频数,即(4)heigtwidt),(1hij k

18、korsjIfvg至此已经取得了子图的特征值 v,其中 v=size, H, G。将所有子图的特征值组成特征向量 V,作为图 G 的结点特征向量。b) 关系矩阵的生成根据格斯塔理论 8,相对位置在视觉识别中占主要地位,因此把关键区域(块)之间的相对位置作为关系矩阵生成的主要依据。由分割算法可知本文中关键区域均为矩形,以该矩形为中心,将 2 维平面分为9 个部分,再求出另一区域在这 9 部分中的分布则可求出它们的相对位置关系。具体计算过程如下图,假设要求关键区域(块)KA i 与 KAj 之间的相对位置关系 rij,先根据 KAi 将平面分割成 9 部分,再求出 KAj在这 9 个区域中的分布,

19、即 rijk=(KAikKA j),其中KAik 表示 KAi 的第 k 个区域。为了简化计算,设KAikKA j=1 如果其有共同区域,否则为 0。这样图3 中所示的 rij=0, 0, 0, 0, 1, 1, 0, 0, 0,由于只有5-KAi5,KAi6 与 KAj 有共同区域所以 rij 的第 5,和第 6个分量为 1,其余全为 0。特别的对于任何 i, rii=0, 0, 0, 0, 0, 0, 0, 0, 1K A iK A j1 2 345678 9图 3 关键区域(块)的相对位置关系求出所有子图之间的关系向量并生成关系矩阵R=rij,其中 R 为 n*n 矩阵,n 为子图个数,

20、R 的每个元素 rij 为一个 9 维向量,该向量由 0 或 1 组成。将R 作为图 G 的关系矩阵,这样就生成了网页图片的特征图 G=V, R。4.3 使用EMD嵌套结构计算相似度每个网页用图表示为 G=,计算该图与被保护网页图 G=之间的 Nest-EMD 距离分为两步,首先算出内部 EMD 距离,依据内部 EMD 形成外部距离矩阵,从而求出这两个图之间的距离。若要比较的两个图分别为 G=, G=, 其中V=vi|1=i=n, R=rij|i!=j,1=i=n,1=j=n, V=vi|1=i=m, R=rij|i!=j, 1=i=m, 1=j=mv,v为特征值定义参照 4.2.1,r ij

21、, rij 为关系向量,定义参见 4.2.2。a) 结点距离函数为了计算特征值结点 v 和 v之间的距离,可以对 v 和 v中各个分量之间的距离分别进行计算并将其加权和作为特征值结点距离。同时为计算方便对距离进行了归一化处理。 size 间的距离。由于 size 由宽和高两个分量组成,设 size1=w1, h1,size 2=w2, h2, wmax = max(w1, w2), hmax = max(h1, h2), wmin = min(w1, w2), hmin = min(h1, h2),则 size 间距离 dsize = 1-(wmin*hmin)/(wmax*hmax),该距离

22、一方面计算简便,同时能更加有效的反映面积的区别。彩色直方图距离。根据文献11,任意两个N 维直方图 Hp 和 Hq 的相似度 SH(p, q)为:(5)32,1)(),(min),(1NiiSNqipqp其中 Hp(i)表示彩色直方图 p 中彩色 i 的概率。灰度直方图距离。与彩色直方图类似,任意两个 N 维灰度直方图 Gp 和 Gq 的相似度 SG(p, q)为:(6)32,1)()(),(min,1NiiqSqipG且 dsize,SH 和 SG 都属于0,1,即为归一化数据。将这三个数据加权相加后即得结点距离 d(vi,vi)=a*dszie+b*SH+c*SG 其中 a+b+c =1。

23、b) 关系距离函数该函数反映 rij 和 rij之间的距离。由于 r 为 9 维向量,这里使用 EMD 距离计算 r 和 r之间的距离。根据图 3,任意两个区域之间都存在一个唯一的曼哈顿距离,例如区域 5 和 1 之间的距离为 4,以该距离作为基础可构成一个 9*9 的距离矩阵。基于该矩阵,计算出任意两个关系向量 r 和 r之间的 EMD,以此EMD 距离作为 r 和 r之间的关系距离的一部分dEMD(r,r)。两个向量中非 0 元素个数之差作为关系距离的另一部分 dN(r,r)=|N(r)-N(r)|,其中 N(r)表示 r 中非零元素的个数。则 d(r,r)=(ddEMD(r,r)+ dN

24、(r,r)/dmax,其中 dmax 为可能的最大关系距离。c) 内部 EMD 距离的计算内部 EMD 距离表示 G 和 G中给定的两个结点之间的 EMD 距离,该距离可作为外部 EMD 矩阵中这两点之间的距离。给定 i 和 i分别为 G 和 G中的第 i 和第 i个结点,通过求内部距离矩阵的方法可以求出结点 i 和 i的内部 EMD。内部距离矩阵 Dinner是一个 n*m 矩阵,其中的元素 dinner(j, j)=(1-a)*d(vj, vj)+a*d(rij, rij),其中 j 属于1, n,j属于1, m,a在0, 1之间,结点和关系的距离函数(v j, vj)由 4.3.1给出,

25、 d(rij, rij)则由 4.3.2 给出。 求出 Dinner 后,以Dinner 为距离矩阵,以 S=(wj)|1=j=n, S=(wj)6-|1=j=m为特征向量,使用 EMD 算法算出外部距离记做 dout(i, i),其中 wj=wj=1/max(n, m),可以了更加有效的进行子图匹配。求出所有的 dout 后得到 Dout=dout(i,i) 。并根据Dout 和 S,S(定义同上)求出转移矩阵 F 和外部 EMD距离 P 作为 G 和 G之间的最终相似度,该距离越小说明 G 和 G越相似。4.4 算法复杂度分析整个算法分为图像分割,特征提取以及 NEMD距离计算三个步骤。最

26、坏情况下其复杂度为O(n*w0*h0),其中 n 为分割后所得的子图个数,w 0,h 0 为网页图像的宽和高(单位为象素) ,由于一般情况下 n20 所以该算法的复杂度是可以接受的。具体分析过程如下:a) 图像分割复杂度设原始网页图像的长和高分别为 w0、h 0,子图 i的长和高为 wi,h i。图片预处理算法 Canny 的时间复杂度为 O(w0*h0)。迭代分割中对子图像 i 进行收缩处理时只需对子图像所有象素进行一次扫描即可求出,因此的复杂度为 O(wi*hi);判断是否能继续分割只需要进行一次比较操作,复杂度为 O(1);分割带检测由于要扫描整个子图像,并对扫描结果进行合并,所以其时间

27、复杂度也为 O(wi*hi)。同类分割带(都为水平或垂直)的比较可以在检测中进行,因此只需对水平和垂直分割带比较,所以该操作的复杂度为 O(1);子图像的分割只需按照分割带与其位置坐标生成新的子图,复杂度为 O(1)。由于子图像之间无重复,有w i*hiw0*h0(其中子图 i 属于带分割集合) ,因此每迭代分割一次的时间复杂度小于 O(w0*h0),设最后生成 n 个不可分割子图,则最多需要 n-1 次分割(如果某此分割没有新的子图产生则根据算法可知分割结束) ,所以整个分割算法的时间复杂度小于O(n*w0*h0),其中 n 为分块个数。b) 特征关系图生成复杂度由于特征由子图像的彩色直方图

28、、灰度直方图以及长宽构成,只需对每个子图进行一次扫描,因此特征提取的复杂度为 O(w0*h0)。关系矩阵为 n*n 的矩阵,每计算一个元素的复杂度为定值所以生成关系矩阵的复杂度为 O(n*n)。c) NEMD 复杂度 设待匹配的两个网页中分别有 n、m 个子图,其NEMD 包括节点距离计算,关系距离计算,内部和外部 EMD 距离的计算。求 EMD 距离可以归结为线性规划法,在一般条件下其复杂度为多项式时间,本文中分割的部分一般在 20 个以下(n,m20) ,所以其复杂度为 O(P(n,m),其中 P(n,m)为由 n 和 m 组成的多项式。其节点距离计算复杂度为一个定值,因此其复杂度为 O(

29、1);同理给定关系之间的距离计算复杂度也为 O(1)。计算任意两个节点间的内部 EMD 距离,首先得到内部 EMD 矩阵(复杂度为 O(n*m)) ,再求出 EMD 距离(复杂度为 O(P(n,m)) ,求出两个网页中所有节点之间的内部 EMD 距离(复杂度为O(P(n,m))后再进行一次 EMD 计算便得到了外部EMD(复杂度为 O(P(n,m)) 。所以整个 NEMD 计算的时间复杂度为 O(P(n,m)。综合以上分析,由于 m,n 远小于 w0 和 h0,因此整个算法的复杂度为 O(n*w0*h0),即算法的复杂度在图像分割处理。5 性能分析为了测试本文算法,使用 matlab 实现了所

30、提出的相似性检测算法和 Yu6的相似性检测算法,并对其进行了比较,具体实验平台为普通 PC 机,CPU 为 P4 3.0,内存 521M,操作系统为 Windows XP SP2。首先测试图 4 中(a)和(b)之间的距离(进行了归一化处理,0 为完全相同,1 为完全不同) ,Yu 6的算法结果为 1.107*10-4(表示二者十分相似) ,本文算法的计算结果为 0.227(表示不太相似) ,可以明显看出 Yu7的方法在本次测试中失效,而本文算法则反映了实际情况,与用户的理解一致。(a) (b)图 4 实验结果同时我们还对实际的钓鱼网页进行了测试,钓鱼网页来自于 Liu7的网站。这些钓鱼网页针

31、对 ebay 的有 2个,针对 earthlink,ICBC,Wells Fargo,US Bank 以及 Washington Mutual Bank 各一个。同时 Liu 还提供7-了这 6 个网站的真实网页作为比较。本文采用前缀“t-”来表示真实网页,而“f- ”表示钓鱼网页,比如 t-eBay 表示真的 eBay,而 f-ICBC 则表示针对ICBC 的钓鱼网页。表 1 和表 2 分别列出了根据 Yu6和本文方法算出的网页之间的距离。可以看出绝大多数钓鱼网页与原网页都是最相似的(距离最小) ,但由于针对 EarthLink 的钓鱼网页与原网页差距很大,两个算法都出现错报(考虑到对用户的

32、影响,表 1. Yu 的算法所计算出的网页距离t-eBay t-EarthLink t-ICBC t-Wells Fargo t-US Bank t-Washingtonf-eBay1 0.0041 0.0292 0.065 0.0432 0.0196 0.0256f-eBay2 0.0048 0.0294 0.0643 0.0434 0.0203 0.0249f-EarthLink 0.0187 0.0293 0.0609 0.0561 0.0248 0.0143f-ICBC 0.0591 0.0633 0.003 0.0664 0.0566 0.0589f-WellsFargo 0.042

33、4 0.0571 0.0672 0.0121 0.0419 0.0559f-US Bank 0.0172 0.0240 0.0596 0.0413 0.0017 0.0228f-Washington 0.0293 0.0231 0.0597 0.0614 0.0299 0.0095表 2. 本文算法所计算出的网页距离t-eBay t-EarthLink t-ICBC t-Wells Fargo t-US Bank t-Washingtonf-eBay1 0.0151 0.2044 0.3483 0.1472 0.3458 0.2383f-eBay2 0.0032 0.2051 0.3232 0

34、.1452 0.3395 0.2405f-EarthLink 0.1985 0.1989 0.4257 0.0820 0.3490 0.2449f-ICBC 0.3219 0.4168 0.0010 0.4599 0.2155 0.4210f-WellsFargo 0.1414 0.1343 0.4516 0.0135 0.2706 0.1685f-US Bank 0.3370 0.3393 0.2153 0.2720 0.0052 0.3354f-Washington 0.2470 0.2642 0.4280 0.1777 0.3387 0.0125以及钓鱼网页的特点,该错误是可以接受的,因

35、此在下面的计算中忽略该网页) 。同时结果还显示了本文算法比 Yu7的方法更具鲁棒性。为了说明本文算法的鲁棒性,我们对比两种算法所得的钓鱼网页与非钓鱼网页之间距离的比率。设Sim(web1, web2)为网页 web1 和 web2 之间的距离,则 Sim(web1, web2)越小说明 web1 和 web2 越相似,则Sim(t-webi, f-webi) 与 Sim(t-webi, f-webj) 的比率就能反映出算法的准确性即相似度分辩率,其中 ij,由于有多个钓鱼网页,我们采用最坏比率 Riworst 和平均比率 Riavg 进行比较,如式(7)和(8)所示,其中f-webik 为针对

36、 webi 的第 k 个钓鱼网页且 ij。(7)),(minaxkiijworsti webftSR(8)),(kiijavgi webftSimR图 5 反映了两种算法的最坏距离比率,图 6 反映了两种算法的平均距离比率,可以明显的看出本文算法在鲁棒性和准确性方面明显优于 Yu6的算法。050100150200250eBay ICBC Wells Fargo US Bank Wash-ingtonYus EMDNEMD图 5 最坏比率8-050100150200250300350400eBay ICBC Wells Fargo US Bank Wash-ingtonYus EMDNEMD图

37、6 平均比率6 小结本文针对网络钓鱼发展和演变,通过分析现有的主要防范措施,提出了一套完整的钓鱼网页检测体系架构,基于该架构能实现钓鱼网站的发现,预警,取证等一系列完整的网络钓鱼防范措施。深入研究了钓鱼网页检测中最为核心的算法网页相似性计算,提出了一个基于图像分割和嵌套 EMD 距离的网页相似性计算方法,并通过试验证明了该方法在准确性和鲁棒性方面优于已有的网页相似性检测算法。下一步的工作是在一定范围内部署本系统,实现对真实网络钓鱼的检测,同时针对算法特点优化和改进图像分割算法以提高效率。参考文献1 Rachna Dhamija, J.D.Tygar. The battle against ph

38、ishing: Dynamic Security Skins. ACM International Conference Proceeding Series, Proceedings of the 2005 symposium on Usable privacy and security table of contents, Pittsburgh, Pennsylvania, 2005. New York, USA: ACM, 2005:77-882 Inomata.A, Rahman.M, Okamoto.T, Okamoto.E. A novel mail filtering method

39、 against phishing. /Communications, Computers and signal Processing, 2005, PACRIM, 2005:221-2243 Madhusudhanan Chandrasekaran, Ramkumar Chinchani, Shambhu Upadhyaya. PHONEY: Mimicking User Response to Detect Phishing Attacks. International Workshop on Wireless Mobile Multimedia archive, Proceedings

40、of the 2006 International Symposium on on World of Wireless, Mobile and Multimedia Networks table of contents, Washington, DC, USA: IEEE Computer Society, 2006:668-6724 Daeseon Choi, Seunghun Jin, Hyunsoo Yoon. A method for preventing the leakage of the personal information on the Internet. The 8th

41、International Conference, Advanced Communication Technology, 2006. 2006:20-225 Daeseon Choi, Seunghun Jin, Hyunsoo Yoon. A method for preventing the leakage of the personal information on the Internet. The 8th International Conference, Advanced Communication Technology, 2006,Vol.2:20-226 Anthony Y.

42、Fu, L.W., Xiaotie Deng, Detecting phishing web pages with visual similarity assessment based on earth movers distance (EMD). IEEE Transactions on Dependable and Secure Computing, IEEE Computer Society Press, 2006,Vol.3 No.4:301-3117 W.Liu, G.H, X.Liu, M.Zhang, X.Deng. Phishing web paged etection. /i

43、n Proc, eighth intl conf, documents analysis and recognition, 2005:560-5648 Nesbitt, K.V, Friedrich.C. Applying Gestalt principles to animated visualizations of network data. Information Visualisation, Sixth International Conference. 2002:737-7439 Duck Hoon Kim; Il Dong Yun; Sang Uk Lee. A new attri

44、buted relational graph matching algorithm using the nested structure of earth movers distance. Pattern Recognition, 2004. ICPR 2004. Proceedings of the 17th International Conference on Volume 1, Issue , 23-26 Aug. 2004: 48 - 5110 Hengbo Zhang, Zongying O. An image search method based color and gray

45、histograms. Computer Engineering.2004, 30(10):20-22 (中文: 张恒博, 欧宗瑛 . 一种基于色彩和灰度直方图的图像检索方法. 计算机工程 , 2004. 30(10): 20-22)9-A Phishing Web Pages Detection Algorithm Based on Nested Structure of Earth Movers Distance (Nested-EMD)CAO Jiuxin MAO Bo LUO Junzhou LIU Bo(School of Computer Science and Engineeri

46、ng, Southeast University, Nanjing 210096, China)(Jiangsu Provincial Key Laboratory of Network and Information Security, Nanjing 210096, China)(Key Laboratory of Computer Network and Information Integration Ministry of Education, Nanjing 210096, China)()Abstract: Web Phishing has become a big threat

47、to online applications such as financial services, it steals user identities and credentials by imitating the sites of service providers such as banks. In this paper, we proposed a novel architecture of Phishing web detection which gives the function modules and processing workflow, and a visual bas

48、ed web page similarity detecting algorithm. Based on the image of the suspicious web page, the algorithm first divides web page into sub-block images from which features and relations are abstracted and the ARG (Attributed Relational Graph) of the web page is formed. Then based on the ARG of two web pages, we get the Nested-EMD (Earth Movers Distance) of the two pages as their similarity, and then the decision can be concluded by comparing the similarity degree between two web pages. Our algorithm is implemented and compared with the latest internation

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 精品笔记

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。