1、华南木棉中文网页分类器,华南理工大学信息网络工程研究中心 广东省计算机网络重点实验室 曹鸿(队长) 李嘉林 陈胜荣 朱旭圻,全国搜索引擎与网上信息学术研讨会SEWM 2006-中文文本分类,目录,系统模块系统流程测试结果总结与展望,模块结构,网页去噪模块,预处理 对天网格式的训练集1,训练集2及CWT20G文件进行解压,得到三个网页文档集合(11类别训练集,8类别训练集,待分类网页集),一个网页对应一个文档,以docID命名。去除标签 去掉无用的HTML语法标签信息模板去噪 对45M训练集进行,数据集 原来大小 去噪后大小11类别训练集 200M 68M 8 类别训练集 45M 18MCWT2
2、0G 20G 11G,模板去噪,使用模板去噪以后,可以比较好的去除网页中导航栏,广告条,网站介绍,公司信息,无关链接等与网页主题内容无关的噪音信息 。网页模板选取选取一个结构相似的网页模板。我们使用网页URL作为衡量网页模板相似性的因子。在训练集找出一个网页,它的URL与待分类网页URL具有最长相同前缀,这个网页就被视为网页模板。模板去噪记待去噪网页为t, 选取的模板为s. 然后利用JTidy建立两个网页的DOM树,从根结点开始,依次比较,如果有相同的结点,则认为该结点为噪音信息而删除。,中文分词模块,中文分词使用开源中文分词系统ICTCLAS,只保留名词。进行中文分词后继续进行stemmin
3、g处理。Rainbow的禁止词是SMART system 的524个,我们进行扩充达到1500个。,特征空间压缩,采用了IG(Information Gain: IG)特征选择算法对数据集进行特征降维,压缩特征空间。200M数据集的特征空间维数为:65565(共138365维)45M数据集的特征空间维数为:4800(共13024维),分类模块,NB:朴素贝叶斯(Nave Bayes)算法SVM:支持向量机(Support Vector Machine)算法SVMlight算法:对joachims的二元分类器进行了改进(结合OVA算法),使其可用于多元分类,并引入加权策略(OVA-WWT),提高
4、分类精度。,OVA-WWT策略:One Vs All With Weighted Threshold,传统OVA,只是比较文档对N个类别的相似度,简单地取相似度最大的那个类别,由于这N个相似度是由N个不同的分类器产生,简单地取最大值作为阈值策略并不合适我们提出OVA-WWT(One-Vs-All-With-Weighted Threshold)算法,在OVA算法的结果融合阶段引入加权阈值策略,以提高类别公平度,从而提高分类精度。,人工操作,CWT20G中有1900个文件由于具有某些无法识别的字符,使用本系统不能进行特征表示。我们会先统计20G网页的分类分布情况,然后将这些网页归入到分布概率最大
5、的那个类别中去。,目录,系统模块系统流程测试结果总结与展望,中文分词,特征压缩,去除HTML标签及模板去噪,按天网格式解压,去除HTML标签及模板去噪,按天网格式解压,参数调优,特征建模,分类模型,中文分词,特征表示,训练集网页文档,训练集,CWT20G,待分类网页文档,分类器,分类结果,出错处理,测试结果,用200M网页集的训练集部分建模,测试集部分进行测试,本分类系统的宏平均正确率达到87.61%,宏平均召回率达到84.02% ,宏平均F1值达85.78%。用45M 网页集的训练集部分建模,测试集部分进行测试,本分类系统的宏平均正确率达到87.96%,宏平均召回率达到85.79%,宏平均F1值达86.86%。,20G类别分布(200M模型),目录,系统结构系统模块算法描述总结与展望,总结与展望,相比去年的木棉分类器,增加了模板去噪技术,改进了SVMlight算法。展望:分块权重技术:网页中不同HTML标签所表示的内容块,应该给以不同的权重分层过滤:将易混淆的若干类别集中起来,独立进行第二层的分类使用同义词词典考虑网页间的链接关系,谢谢大家!,