1、本讲内容n 贝叶斯分类n 基于神经网络的分类Date 1Data Mining: Concepts and TechniquesBayesian Classificationn 是一种基于统计的分类方法,用来预测诸如某个样本属于某个分类的概率有多大n 基于 Bayes理论n 研究发现, Nave Bayes Classifier在性能上和 Decision Tree、 Neural Network classifiers 相当。在应用于大数据集时,具有较高的准确率和速度n Nave Bayes Classifier假设属性值之间是独立的,因此可以简化很多计算,故称之为 Nave 。 当属性值之
2、间有依赖关系时,采用 Bayesian Belief Networks进行分类。Date 2Data Mining: Concepts and TechniquesBayesian Theorem: Basicsn 假设 X是未知分类标号的样本数据n H代表某种假设,例如 X属于分类 C n P(H|X): 给定样本数据 X, 假设 H成立的概率n 例如,假设样本数据由各种水果组成,每种水果都可以用形状和颜色来描述。如果用 X代表红色并且是圆的, H代表 X属于苹果这个假设,则P(H|X)表示,已知 X是红色并且是圆的,则 X是苹果的概率。Date 3Data Mining: Concepts
3、 and TechniquesBayesian Theorem: Basicsn P(H): 任一个水果,属于苹果的概率 .(不管它什么颜色,也不管它什么形状 )n P(X): 任一个水果,是红色并且是圆的概率(不管它属于什么水果 )n P(X|H) : 一个水果,已知它是一个苹果,则它是红色并且是圆的概率。n P(H|X) : 一个水果,已知它是红色并且是圆的 ,则它是一个苹果的概率。Date 4Data Mining: Concepts and TechniquesBayesian Theorem: Basicsn 现在的问题是,知道数据集里每个水果的颜色和形状,看它属于什么水果,求出属于
4、每种水果的概率,选其中概率最大的。也就是要算: P(H|X)n 但事实上,其他三个概率, P(H)、 P(X)、 P(X|H) 都可以由已知数据得出,而 P(H|X)无法从已知数据得出n Bayes理论可以帮助我们:Date 5Data Mining: Concepts and TechniquesNave Bayes Classifiern 每个数据样本用一个 n维特征向量表示,描述由属性对样本的n个度量。n 假定有 m个类。给定一个未知的数据样本 X( 即,没有类标号),分类法将预测 X属于具有最高后验概率(条件 X下)的类。即,朴素贝叶斯分类将未知的样本分配给类 Ci , 当且仅当:这样
5、,我们最大化 。其最大的类 Ci称为最大后验假定。根据贝叶斯定理 :Date 6Data Mining: Concepts and TechniquesNave Bayes Classifiern 由于 P(X) 对于所有类为常数,只需要 最大即可。如果类的先验概率未知,则通常假定这些类是等概率的;即, 。并据此只对最大化。否则,我们最大化 。类的先验概率可以用 计算;其中, si是类 C中的训练样本数,而 s是训练样本总数。Date 7Data Mining: Concepts and TechniquesNave Bayes Classifiern 给定具有许多属性的数据集,计算 的开销可
6、能非常大。为降低计算的开销, 可以朴素地假设属性间不存在依赖关系。这样,概率 , , 可以由训练样本估计,其中,(a) 如果 Ak是分类属性,则 ;其中 sik 是在属性Ak 上具有值 xk 的类 Ci 的训练样本数,而 si 是 Ci中的训练样本数(b) 如果是连续值属性,则通常假定该属性服从高斯分布。因而,其中,给定类 Ci的训练样本属性 Ak的值, 是属性 Ak的 高斯密度函数 ,而 分别为平均值和标准差。Date 8Data Mining: Concepts and TechniquesNave Bayes Classifiern 为对未知样本 X分类,对每个类 Ci, 计算 。样本 X被指派到类 Ci, 当且仅当:换言之, X被指派到其 最大的类 Ci。Date 9Data Mining: Concepts and TechniquesTraining datasetClass:C1:buys_computer=yesC2:buys_computer=noData sample X =(age=30,Income=medium,Student=yesCredit_rating=Fair)Date 10Data Mining: Concepts and Techniques