论文摘要:本文介绍中文网页自动分类的研究状况;分析常用的特征提取方法并比较其在中文网页分类应用中的优劣,总结经典分类方法;简述分类评价指标;讨论目前分类系统。论文关键词:网页分类,特征提取,分类算法,评价指标1、引言随着网络应用的迅速普及和发展,互联网用户量急剧增长,网络上的信息资源呈爆炸式增长,面对这样海量的网络信息量,似乎能够满足人们对于信息的需求。但是实际的情况是对99%的用户来说,互联网上99%以上的信息是毫无用处的。可见对中文网页自动分类具有现实意义。2、中文网页分类的研究中文网页自动分类是从文本自动分类的基础上发展起来的,由于文本自动分类拥有比较成熟的技术,不少研究工作试图使用纯文本分类技术实现网页分类。孙建涛指出:用纯文本方式表示网页是困难的,也是不合理的,因为网页包含的信息比纯文本包含的信息要丰富得多;用不同方式表示网页然后再组合分类器的方法能够综合利用网页的特征,但各个分类器的性能难以估计,使用什么组合策略也难以确定。董静等人提出了基于网页风格、形态和内容对网页分类的网页形式分类方法,从另外的方面对网页分类进行研究;范焱等人提出一种用朴素贝