摘要介绍了一种反垃圾邮件系统的内容过滤模块的总体设计,以及内容过滤模块中采用的关键技术多文档文本提取技术,涉及HTML文档、PDF文档、MS-WORD文档、CHM文档的文本提取技术,及压缩文件中的文档处理技术,从而更好地完善反垃圾邮件系统,以提高垃圾邮件识别率、拦截率,降低资源的消耗。关键词垃圾邮件;反垃圾邮件系统;过滤;模块1引言国际互联网技术为人们进行交流、协同工作、资源及内容共享等提供了一条崭新途径。随着通信技术及计算机技术的飞速发展,互联网络的使用日益普及,已成为当前信息时代的一种极为重要的信息传播载体,对社会的发展起到了巨大的推进作用,且信息传播及时、便捷。据美国电脑工业年鉴公司估计,2010年全球互联网用户将超过7.65亿人。互联网络安全涉及到加密、计算机病毒防范、入侵检测、接入控制、网上媒体信息内容监管、安全管理、垃圾邮件处理等众多关键技术问题。在电子邮件为我们提供充分便利的同时,不断产生的垃圾邮件和不良邮件也正在给我们的工作、生活制造着难以计数的麻烦和无法预计的危害。2004年11月份的数字显示,垃圾邮件的比例接近74,在发送的垃圾邮件