中文垃圾邮件过滤系统的实现和评估.ppt

上传人:da****u 文档编号:5079188 上传时间:2020-10-30 格式:PPT 页数:19 大小:134KB
下载 相关 举报
中文垃圾邮件过滤系统的实现和评估.ppt_第1页
第1页 / 共19页
中文垃圾邮件过滤系统的实现和评估.ppt_第2页
第2页 / 共19页
中文垃圾邮件过滤系统的实现和评估.ppt_第3页
第3页 / 共19页
中文垃圾邮件过滤系统的实现和评估.ppt_第4页
第4页 / 共19页
中文垃圾邮件过滤系统的实现和评估.ppt_第5页
第5页 / 共19页
点击查看更多>>
资源描述

中文垃圾邮件过滤系统的实现和评估,田莹 北京 清华大学 网络中心 Email:,概要,引言 研究背景 中文垃圾邮件过滤系统的实现 中文垃圾邮件过滤系统的评估 最新研究进展及结论,引言,垃圾邮件的定义 垃圾邮件的危害 反垃圾邮件的意义 Email,短信,VoIP电话 垃圾邮件的特性,反垃圾邮件的方法,黑白名单 关键字匹配 贝叶斯 SVM Etc.,基于内容的过滤器的流程图,英文垃圾邮件的贝叶斯过滤流程,收集两个数据库 垃圾邮件数据库 正常邮件数据库 在每一个数据库中,学习并定义出一些关键词,计算这些关键词的概率 新邮件到来时,计算出新到来的邮件中包含的关键词的联合概率 通过联合概率判断新到来的邮件是否是垃圾邮件,中文邮件的预处理,中文分词的概念 分词算法 基于字符串匹配 基于理解 基于统计 中文分词的词典 基于整词二分 基于TRIE索引树 基于逐字二分,实验数据来源,CCERT提供 训练用邮件数 5000 测试用邮件数 500,评估指标,定义L为正常邮件,S为垃圾邮件。SL表示将垃圾邮件判定为正常邮件,同理,LS表示将正常邮件判定为垃圾邮件。 在文本分类问题中,有两个评估指标被经常使用。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。