1、反垃圾邮件技术分析与中文垃圾邮件过滤规则研究,孙东红 陈光英中国教育和科研计算机网紧急响应组(Computer Emergency Response Team of China Education and Research Network)清华大学信息网络工程研究中心(Network Research Center of Tsinghua Univ.),主要内容,垃圾邮件的情况,反垃圾邮件技术分析,垃圾邮件的定义垃圾邮件历史现状分析,中文垃圾邮件过滤规则研究,CCERT开展的反垃圾邮件工作,垃圾邮件的定义,垃圾邮件:普通意义上的垃圾邮件指的是未经主动请求的大量的电子邮件, SPAM, UBE(
2、Unsolicited Bulk Email), UCE (Unsolicited Commercial Email) 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;收件人无法拒收的电子邮件; 隐藏发件人身份、地址、标题等信息的电子邮件;含有虚假的信息源、发件人、路由等信息的电子邮件。,主要内容,垃圾邮件的情况,反垃圾邮件技术分析,垃圾邮件的定义垃圾邮件历史现状分析,中文垃圾邮件过滤规则研究,CCERT开展的反垃圾邮件工作,1985 年8 月一封通过电子邮件发送的链锁信,一直持续到1993 年,这是首次关于垃圾邮件的记录。1993 年6 月份,在Int
3、ernet 上出现了名为“Make Money Fast”的电子邮件。 1994 年4 月份,Canter &Siegel 的法律事务所把一封移民顾问服务广告邮件发到6000 多个新闻组,一时间群情激奋。-首次用spam称呼垃圾邮件。1995 年5 月出现第一个专门的垃圾邮件群发软件Floodgate。分析:简单邮件传输协议(SMTP)协议安全性存在不足: SMTP基于RFC 524发展而来,RFC524是在1973年提出的,它不是一个安全的命令集。这使得SMTP缺乏安全性保障。,发展历史,主要内容,垃圾邮件的情况,反垃圾邮件技术分析,垃圾邮件的定义垃圾邮件历史现状分析,中文垃圾邮件过滤规则研
4、究,CCERT开展的反垃圾邮件工作,现状分析-数据统计,全球范围统计,2001年垃圾邮件仅占电邮总量的7%,到2002年即达到29%,至2003年7月就超过了51%,2004年1月高达60%垃圾邮件的数量已经超过了合法电子邮件的数量 。,现状分析-我国垃圾邮件形势严峻,2003年终统计显示:中国邮件服务器总计接收到的垃圾邮件为1500亿封,用户实际共计收到垃圾邮件470亿封,经济损失48亿。第十四次中国互联网络发展状况统计报告显示,我国网民在2004年7月份每周收到13.8封电子邮件,其中正常电子邮件为4.6封,垃圾邮件数却达到9.2封。网民每周收到的垃圾邮件数是非垃圾邮件数的两倍!,商业宣传
5、邮件政治宣传邮件色情宣传邮件病毒邮件,现状分析-常见垃圾邮件类型,爱虫( 2000-2-14)、 nimda(2001-9-19)、 求职信(2001-10-26)、 中文版求职信(2002-年5-10)、 怪物(2002-10-02)、 sobig(2003-1-11)、 爱情后门(2003-2-25)、 小邮差(2003-8-04)、 斯文(2003-9-19)、 MyDoom (SCO炸弹)(2004-1-27) Netsky及其变种(2003-今),发件人地址随机变化邮件主题随机变化伪造邮件头干扰信息信体内容随机变化内容正文以图片方式显示,难以识别对垃圾邮件的定义和分类因人而异垃圾邮件
6、在不同时段内的传播内容不一样垃圾邮件在不同范围内的传播内容不一样,现状分析垃圾邮件的特点,宽带网络的快速发展网络通信成本的下降硬件性能的提高并且成本不断降低成本与产出的巨大反差邮件的易伪造缺乏法律与规范的约束,现状分析-泛滥原因,现状分析危害,国家层面:政治、经济、文化用户层面:学习、工作、生活对于CERNET 内的高校而言:,网络安全性、稳定性、高效性; 占用带宽、存储空间; 被列入各种黑名单; 被投诉;声誉、国际影响;,现状分析- Spammers 的手段,获取目标地址扫描、猜测、购买利用病毒从本地邮箱获取联络人Email地址逃避检测、追踪和过滤的技术Open-Relay 自架设 MTA服
7、务采用动态IP地址伪造或隐藏信源地址逃避内容过滤: Graphics , URL, mis-spelling, etc. 欺骗(Phishing)技术,If the message will not displayed automatically,follow the link to read the delivered message.Received message is available at: ,邮件欺诈技术,欺诈伪造的网页,主要内容,垃圾邮件的情况,反垃圾邮件技术分析,技术概览垃圾邮件的响应环节及措施邮件的传输过程及对垃圾邮件的控制,中文垃圾邮件过滤规则研究,CCERT开展的反垃圾
8、邮件工作,技术概览,邮件服务系统的安全加固,垃圾邮件过滤技术,热点讨论技术,增强邮件服务器的安全性,防止漏洞及时补丁提高系统防病毒能力提供邮件服务安全身份认证添加反垃圾邮件的专用设备或插件,IP、域名、邮件地址的黑白名单及BBL方式SMTP通信链接速率、频度的设定反向域名验证基于信头、信体、附件的内容关键词基于贝叶斯算法的统计分析基于匹配判定规则的方式,电子邮票Challenge-ResponseDomainkeys、SenderIDSPF (sender policy framework),主要内容,垃圾邮件的情况,反垃圾邮件技术分析,技术概览垃圾邮件的响应环节及措施邮件的传输过程及对垃圾邮
9、件的控制,中文垃圾邮件过滤规则研究,CCERT开展的反垃圾邮件工作,反垃圾邮件的技术环节,预防,增强邮件服务器的安全性,防止漏洞及时补丁提高系统防病毒能力提供邮件服务安全身份认证添加反垃圾邮件的专用设备或插件,IP、域名、邮件地址的黑白名单及BBL方式SMTP通信链接速率、频度的设定反向域名验证法基于信头、信体、附件的内容关键词基于贝叶斯算法的统计分析基于垃圾邮件判定规则,电子邮票Challenge-ResponseDomainkeys、SenderIDSPF (sender policy framework),检测,响应,丢弃(Drop)标记(Lable)隔离(Quarantine,主要内容
10、,垃圾邮件的情况,反垃圾邮件技术分析,技术概览垃圾邮件的响应环节及措施邮件的传输过程及对垃圾邮件的控制,中文垃圾邮件过滤规则研究,CCERT开展的反垃圾邮件工作,邮件的传输过程,Originator,Receiver,External-Relay,布控点及相关措施(一),Originator端:,在发送邮件的服务器上采取措施:限制服务器发送邮件的速率、频率规定邮件服务器开放服务的端口,关闭不必要的服务使用经过认证的MTA转发邮件设定邮件用户身份认证方式,与邮件用户间互签安全协议,对转发邮件过程中的Relay 服务器身份认证:,布控点及相关技术(二),:可信任的信道,即每次中转都采用可信赖的实体
11、SSL/TLSPPP LogicSSH,:合法的对象源,对邮件信息可以做确认S/MIMEPGP,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于honeypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APFChallenge-response,黑名单,不占用计算机资源,易于实施 。需要手动维护的IP地址清单。垃圾邮件发送者经常修改他们的IP地址,并采用一个广泛的IP地址区间以逃避反垃圾邮件手段的检测,因此该方案在总体的垃圾邮件解决方案中仅起补充作用。黑名单、白名单、灰名单,设置不同方式的过滤措施,Re
12、ceiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于honeypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APFChallenge-response,RBLs (实时黑名单),也被称为DNS-RBLs, 检查所有收到邮件的IP地址,与在RBL中的IP地址核对来阻断与spammer 的连接。RBL服务运营商维护公共RBLs, 使用单位仅需订阅实时黑名单服务。 RBLs的计算开销非常低,同时它们通常采用一个类似与DNS的协议实施,所以它们的网络开销也非常低。 RBLs缺点易于产生误报,须谨慎。,RBL工作原理,SMTP服务器接收到链接
13、请求对链接地址进行DNS反向查询与RBL服务器建立查询查询得到肯定的结果,则拒绝该连接查询无结果,继续进行连接,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于honeypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APFChallenge-response,检查邮件内容中含有的URL链接定义受益黑名单,基于BBL过滤,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于honeypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC
14、、Razor、APFChallenge-response,DOS(拒绝服务)攻击-垃圾邮件发送者经常试图通过在很短一段时间发送大量邮件阻塞邮件服务器 。速率控制允许在一段时间内从相同IP试图的联接数量控制在设置的范围内 。,链接频度控制,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于honeypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APFChallenge-response,反向域名验证,对收到邮件的来源IP地址采用反向DNS查找验证真实性 如果反向DNS查找提供的域与邮件上的来源IP地址相符
15、合,该邮件被接受。如果不符合,该邮件被拒绝。由于很多反向DNS目录未被有效建立 ,或无法正常建立,比如,任何”vanity”域名决大多数情况下没有一个正确的反向DNS查找。在这种情况下,由这些域发送的邮件将被阻断,造成不可接受的高误报告率。,简单有效、可以阻断绝大多数垃圾邮件;词语过滤识别包含特定关键字的所有邮件,比如“免费”、“色情”等在垃圾邮件中经常发现的词语; 例如在MUA可以自定义过滤关键词关键词过滤集能够持续升级Q:垃圾邮件发送者经常将一些单词拼错,以图饶过词语过滤器,所以词语过滤器需要经常升级,加入关键字的变更。,关键词过滤法,设置不同方式的过滤措施,Receiver 端:,布控点
16、及相关技术(三),基于流量的入侵检测,基于honeypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APFChallenge-response,贝叶斯过滤法,贝叶斯算法:以著名数学家托马斯贝叶斯(1702-1761)命名,一种基于概率分析的可能性推论理论。 分析过去事件的知识,预测未来事件 。贝叶斯过滤器与以前收到的垃圾邮件和合法邮件的中相同词语及短语出现的概率对比来确定垃圾邮件的可能性。贝叶斯过滤法强大,是阻断垃圾邮件最为精确的技术过滤准确率可达到99%过滤准确性依赖大量的历史数据。,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术
17、(三),基于流量的入侵检测,基于honeypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APFChallenge-response,基于规则评分的过滤系统,系统代表SpamAssassin;集合人工智能技术的应用系统;对发现的每一个关键词赋予分数,分数越高,该邮件是垃圾邮件的可能性就越高 ;得分超过一定值时,该邮件将被分类为垃圾邮件。可以清除90%的收到邮件中的垃圾邮件。局限性:和词语过滤面临同样的挑战,为使评分有效,规则必须经常更新。,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于honeypot
18、或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APFChallenge-response,对于垃圾邮件的伪造域地址或伪造回复地址的有效阻断技术SPF (Sender Policy Framework / Sender Permitted From ) 这是对SMTP协议的一个补充,防止发件人假冒,开放的标准,免费。域(Domain)通过DNS发布反向MX记录,告诉Internet哪些计算机可以从该域发送电子邮件。接收方收到邮件后,通过DNS查询邮件来源是否符合源域的邮件发送策略。DMP (目标发件人协议)、 RMX (反向邮件交换),SPF、 DMP、
19、RMX -1,SPF、RMX、DMP分别定义各自的反向MX记录,以确定一封从某一特定域发送的邮件是否允许从特定的IP地址发出。不是从正确MX/SPF/DMP 地址区间产生的邮件地址被识别为伪造,邮件自身被标记为垃圾邮件。 标识:“RMX” for RMX, “SPF” for SPF, and “DMP” for DMP例如,可以定义SPF 记录:,v=spf2.0/pra ptr mx:202.112.57.8 mx: mx all,SPF、 DMP、 RMX -2,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于honeypot或mining
20、field 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APFChallenge-response,Domain Keys,sender域的所有者生成公钥/私钥对,私钥用于所有发出邮件的签名。公钥通过DNS系统发布。当授权用户发送邮件时,邮件服务器自动产生邮件的数字签名,作为邮件头的一部分发送给接收方。receiver接收服务器从邮件中提取签名,从DNS系统中获得发送域的公钥,验证发送方的数字签名。如果没有签名或签名验证失败,接收方可以拒绝、标记或隔离该邮件。Yahoo!公司提出,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于h
21、oneypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APFChallenge-response,Challenge-Response,对付那些邮件自动发送程序 该系统维护了一个允许发件人清单 ,新发件人邮件在发送前被暂时保留 ,challenge-response系统发送给邮件发件人一个测试 ,如果发件人成功完成“测试”,测试/回复系统将他加入到允许发件人的清单中,该邮件被发送到目标地址。 测试信息通常要求发件人在回复邮件中复制一个数字到数字框中要求信息,或者包括一个URL链接。采用虚假发件人邮件地址将不可能收到测试信息,大量的非法邮件是由病毒程
22、序产生的。病毒扫描是减少垃圾邮件数量的一个重要手段。,病毒扫描,主要内容,垃圾邮件的情况,反垃圾邮件技术分析,CCERT开展的反垃圾邮件工作,中文垃圾邮件过滤规则研究,CCERT反垃圾邮件工作历史,CERNET是国内首先开展反垃圾邮件工作的组织之一1996年开始跟踪国际反垃圾邮件组织的工作,开始处理国际相关组织对国内Open-Relay服务器的投诉,通知用户;1998年建立正式受理国际的投诉1999年成立CCERT,专人负责垃圾邮件相关工作,通过 受理国内的投诉2002年CCERT召开CERNET范围内的垃圾邮件处理协调会议,全国10个地区网络中心参加2002年 全国电子邮件服务器系统调查20
23、02年制定了CERNET关于制止垃圾邮件的管理规定,CCERT反垃圾邮件工作历史,2002年组内研究生完成了反垃圾邮件硕士论文2002年接受南方周末、中央电视台东方时空、北京晨报等媒体采访,引发了媒体对垃圾邮件的广泛关注;2003年出版国内第一本关于反垃圾邮件方面的专著垃圾邮件与反垃圾邮件技术2003年参加互联网协会反垃圾邮件协调小组活动,担任技术工作组负责单位2004年10月主办中国反垃圾邮件技术会议CCAS20042004年9月发布国际第一套中文反垃圾邮件规则集合、并提供公益服务。,CCERT反垃圾邮件技术组主页,CCERT反垃圾邮件体系,Monitoring and detection,
24、Active control,Internet,SMTP,Email gateway,Routers,Spam report,Endusers,Ccert-BL,analysis and Statistic,Filtering plug-in,Security configuration,主要内容,垃圾邮件的情况,反垃圾邮件技术分析,CCERT开展的反垃圾邮件工作,中文垃圾邮件过滤规则研究,垃圾邮件内容过滤方法,基于规则方法(1999)基于统计方法(19992004)统计规则方法(2004),概念,基于规则方法寻找“垃圾邮件的特殊模式”,例如:主题包含“免费”。基于统计方法文本自动分类,根据垃
25、圾/正常样本训练分类机,概念图,正常邮件,垃圾邮件,基于规则分类面,基于统计分类面,统计学习理论,风险,经验风险,实际风险,h,VC置信度,过学习,欠学习,基于规则,基于统计,准确性,基于规则检测垃圾邮件的准确率高不能检测新的垃圾邮件,即漏检率高基于统计检测垃圾邮件的准确率不高能检测新的垃圾邮件,即漏检率低,我可以容忍垃圾邮件,但绝不忍受正常邮件被丢掉!,参考值,Return-Path: Received: from (61.141.240.168)by (MIMEDefang) with ESMTP id NOQUEUEfor ; Thu, 23 Dec 2004 10:40:21 +0
26、800 (CST)Message-ID: From: iflkgj Subject: =?GB2312?B?08W73bT6v6q3osax?=To: Content-Type: text/plain;charset=GB2312Reply-To: Date: Thu, 23 Dec 2004 10:54:34 +0800X-Priority: 2X-Mailer: Microsoft Outlook Express 6.00.2800.1158贵公司负责人(经理/财务)您好: 我公司是深圳市如意广告有限公司,我公司实力雄厚,有着良好的社会关系。因我公司是定额税额,每月有一部分普通广告发票和其
27、他服务发票(地税)(2%).,检测对象,基于统计,基于规则,应用范围,客户端,客户端,服务器,服务器,基于规则(SpamAssassin),基于统计(贝叶斯),推广性和时效性,基于规则推广性强时效性差基于统计时效性强推广性差,时效性,推广性,基于规则,基于统计,?,语义问题?,CCERT的新方法,统计规则方法规则由统计方法自动生成,CCERT的新方法和传统方法比较,SpamAssassin (SA),免费垃圾邮件过滤系统公开源代码支持sendmail、qmail、Postfix、EximMTA、MUA、POP3基于规则,用户自定义规则查准率高,速度快广泛使用,SA规则例子,bodyDEAR_F
28、RIEND/s*Dear Friendb/idescribe DEAR_FRIEND Dear Friend? Thats not very dear!score DEAR_FRIEND 0.542,正则表达式,名字,分值,说明,应用范围(信头、信体、原始信体、原始邮件、URI),垃圾邮件判别方法,总分值 6.3,阈值 5.0pts rule name description- - -0.5 DEAR_FRIENDDear Friend? Thats not very dear! 0.1 NORMAL_HTTP_TO_IP URI: Uses a dotted-decimal IP addre
29、ss in URL0.0 HTTP_ESCAPED_HOST URI: Uses %-escapes inside a URLs hostname0.5 HTML_60_70 BODY: Message is 60% to 70% HTML0.0 HTML_MESSAGE BODY: HTML included in message2.9 HTML_IMAGE_ONLY_08 BODY: HTML: images with 400-800 bytes of words1.0 HTML_FONT_LOW_CONTRAST BODY: HTML font color similar to back
30、ground1.2 MIME_HTML_ONLY BODY: Message only has text/html MIME parts,所有规则都检查计算总分值:匹配的规则的分值之和总分值大于阈值则是垃圾邮件,SA对中文的支持,SA主要针对英文垃圾邮件缺乏中文规则英文规则对中文邮件的影响,CCERT的中文垃圾邮件过滤规则集Chinese_rules.cf(http:/ 2.8G)匹配一个大小为5.0K的邮件需要0.04秒每天能处理216万封邮件,语义问题?,Chinese_rules.cf的准确率,Chinese_rules.cf的进展,用户查看规则统计,用户使用规则统计,从9月7日至12月15日,SA 把超过4.5的邮件判为Spam,本邮件分值为10.3,如果没有中文规则集,本邮件分值只有3.1 ,将会判为正常邮件,总结,推广性、时效性和语义问题垃圾和正常邮件样本用户反馈信息与在线学习Chinese_rules.cf和其它规则的冲突语义问题在规则上的体现多种方法的结合,Thanks!Spam service: 86-10-62784301 Email: Tel: 86-10-62795818-6222Address: Main Building Room 310, Tsinghua Univ. Beijing, China 100084,