华南理工.ppt

上传人:ga****84 文档编号:459806 上传时间:2018-10-09 格式:PPT 页数:17 大小:447KB
下载 相关 举报
华南理工.ppt_第1页
第1页 / 共17页
华南理工.ppt_第2页
第2页 / 共17页
华南理工.ppt_第3页
第3页 / 共17页
华南理工.ppt_第4页
第4页 / 共17页
华南理工.ppt_第5页
第5页 / 共17页
点击查看更多>>
资源描述

1、华南木棉中文网页分类器,华南理工大学信息网络工程研究中心 广东省计算机网络重点实验室 曹鸿(队长) 李嘉林 陈胜荣 朱旭圻,全国搜索引擎与网上信息学术研讨会SEWM 2006-中文文本分类,目录,系统模块系统流程测试结果总结与展望,模块结构,网页去噪模块,预处理 对天网格式的训练集1,训练集2及CWT20G文件进行解压,得到三个网页文档集合(11类别训练集,8类别训练集,待分类网页集),一个网页对应一个文档,以docID命名。去除标签 去掉无用的HTML语法标签信息模板去噪 对45M训练集进行,数据集 原来大小 去噪后大小11类别训练集 200M 68M 8 类别训练集 45M 18MCWT2

2、0G 20G 11G,模板去噪,使用模板去噪以后,可以比较好的去除网页中导航栏,广告条,网站介绍,公司信息,无关链接等与网页主题内容无关的噪音信息 。网页模板选取选取一个结构相似的网页模板。我们使用网页URL作为衡量网页模板相似性的因子。在训练集找出一个网页,它的URL与待分类网页URL具有最长相同前缀,这个网页就被视为网页模板。模板去噪记待去噪网页为t, 选取的模板为s. 然后利用JTidy建立两个网页的DOM树,从根结点开始,依次比较,如果有相同的结点,则认为该结点为噪音信息而删除。,中文分词模块,中文分词使用开源中文分词系统ICTCLAS,只保留名词。进行中文分词后继续进行stemmin

3、g处理。Rainbow的禁止词是SMART system 的524个,我们进行扩充达到1500个。,特征空间压缩,采用了IG(Information Gain: IG)特征选择算法对数据集进行特征降维,压缩特征空间。200M数据集的特征空间维数为:65565(共138365维)45M数据集的特征空间维数为:4800(共13024维),分类模块,NB:朴素贝叶斯(Nave Bayes)算法SVM:支持向量机(Support Vector Machine)算法SVMlight算法:对joachims的二元分类器进行了改进(结合OVA算法),使其可用于多元分类,并引入加权策略(OVA-WWT),提高

4、分类精度。,OVA-WWT策略:One Vs All With Weighted Threshold,传统OVA,只是比较文档对N个类别的相似度,简单地取相似度最大的那个类别,由于这N个相似度是由N个不同的分类器产生,简单地取最大值作为阈值策略并不合适我们提出OVA-WWT(One-Vs-All-With-Weighted Threshold)算法,在OVA算法的结果融合阶段引入加权阈值策略,以提高类别公平度,从而提高分类精度。,人工操作,CWT20G中有1900个文件由于具有某些无法识别的字符,使用本系统不能进行特征表示。我们会先统计20G网页的分类分布情况,然后将这些网页归入到分布概率最大

5、的那个类别中去。,目录,系统模块系统流程测试结果总结与展望,中文分词,特征压缩,去除HTML标签及模板去噪,按天网格式解压,去除HTML标签及模板去噪,按天网格式解压,参数调优,特征建模,分类模型,中文分词,特征表示,训练集网页文档,训练集,CWT20G,待分类网页文档,分类器,分类结果,出错处理,测试结果,用200M网页集的训练集部分建模,测试集部分进行测试,本分类系统的宏平均正确率达到87.61%,宏平均召回率达到84.02% ,宏平均F1值达85.78%。用45M 网页集的训练集部分建模,测试集部分进行测试,本分类系统的宏平均正确率达到87.96%,宏平均召回率达到85.79%,宏平均F1值达86.86%。,20G类别分布(200M模型),目录,系统结构系统模块算法描述总结与展望,总结与展望,相比去年的木棉分类器,增加了模板去噪技术,改进了SVMlight算法。展望:分块权重技术:网页中不同HTML标签所表示的内容块,应该给以不同的权重分层过滤:将易混淆的若干类别集中起来,独立进行第二层的分类使用同义词词典考虑网页间的链接关系,谢谢大家!,

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。