1、 一种基于内容的广告垃圾图像过滤方法目录n 论题意义及其必要性n 过滤原理与实现方法n 实验和结果分析论题意义及其必要性n 垃圾邮件问题日益严重:2005年 7月,中国互联网络信息中心( CNNIC) 发布的第十六次中国互联网发展状况统计报告显示,中国网民平均每周收到 14.5封电子邮件,其中垃圾邮件占了 9.3封,垃圾邮件数量已经大大超过了正常邮件数量。 n 基于文本过滤方法的局限性 :第一 、基于文本的过滤受到文本语言种类的限制;第二、垃圾邮件发送者( spamer) 经常使用各种各样的骗术来迷惑基于文本的垃圾邮件过滤器,比如将文字页面转换为图像;有数据显示,包含图像的垃圾邮件占所有垃圾邮
2、件的 25%。可见,这种欺骗手段已经被垃圾邮件制作者们频繁利用,如果没有找到可行的解决办法,这个数字还会上升。第三、随着因特网的范围和容量不断增长,邮件包含越来越多的多媒体信息。一些广告垃圾图片的示例目录n 论题意义及其必要性n 过滤原理与实现方法n 实验和结果分析过滤的原理任何广告都需要用文字来传播某种信息。也就是说,广告垃圾图像的文字区域特征具有普遍性。本文正是利用广告垃圾图像的文字区域特征来进行广告垃圾图像过滤。基本步骤:1.提取图像的边缘信息,并把边缘信息做二值化处理;2.将二值化边缘图像进行膨胀处理,使相邻的字符连通起来 ,并 把膨胀处理后的所有连通区域作为候选文字区域记录下来;3.
3、利用文字区域的特征从候选文字区域中筛选出正确的文字区域;4.根据得到的文字区域的数量和面积等特征对图像进行分类,把广告垃圾图像和合法图像区分开来。 彩色边缘提取由于广告图像中的文本与背景有较强的对比度,表现为在文本与背景的交界处,存在十分明显的高频区域,因此可以用提取边缘的方法来大致估计出文本可能存在的区域。由于广告垃圾图像大多为彩色图像,所以本文采用张引等提出的彩色图像边缘提取算子来提取边缘,利用彩色三分量的彩色边缘提取算法,充分利用了全面的色彩信息,效果优于传统的灰度边缘提取算法。边缘提取的具体做法如下:已知输入图像 f的 RGB值,其中象素 ( i, j) 的 RGB分量分别为 R( i
4、, j), G( i, j), B( i, j) 。 要计算图像 f的边缘图像 Edge。 Eud( i1, j1; i2 , j2) 定义为像素点 ( i1 , j1) 与 ( i2 , j2) 之间的彩色值欧氏距离。 原图与边缘图像( a) 原图 ( b) 边缘图像边缘图像二值化阈值选取方法:首先计算边缘图像 Edge的归一化灰度直方图 h( i) :其中, ni是图像 Edge中灰度值为 i的象素的个数, N是图像象素总数 。因为文字区域边缘十分明显,所以本文认为文字区域边缘的灰度级一般比较高。于是需要找到一个灰度级 k作为阈值,把灰度大于 k的边缘象素点保留,灰度小于 k的边缘象素点忽略。令 ;eh(k)表示保留的边缘象素数占图像总象素数的比例;找到一个尽可能大的灰度 级 k使得 eh( k) 大于阈值 TH1; 如果此时 k小于下限 TH2, 则把 TH2作为二值化的阈值,否则把 k作为二值化的阈值。在实验中,我们取 TH1=0.2,TH2=120( 认为文字区域边缘的灰度级不应低于 120)。二值化边缘图像( c) 二值化边缘图像