1、Ch 02. 贝叶斯决策论,符号表示,表示类别的随机变量类别标记例如: :鲑鱼; :鲈鱼类别先验概率当所有类别互斥并且完备的情况下类条件概率密度函数,进行观察之前,问题给定所有可能类别的先验概率,在不进行观察的情况下,预测下一个可能出现的模式的类别最佳决策规则在没有对新出现的模式进行任何观察情况下,该决策规则造成错误的概率最小,因此为最优决策规则;如果先验概率不变,则每次的预测均相同。如果有更多的信息,是否可以做出更好的预测?,如果 ,则预测下一个模式为,在类别为 的情况下,观察到特征 的概率为可用于分类的特征x在类别不同的情况下,其概率分布应有所不同,进行观察之后,目标:在观察到 的情况下,
2、类别为 的概率判决规则,从样本中观察到 的情况下,如果 ,则预测该模式为,根据观察到的特征做出预测,利用先验概率(观察到x之前)计算后验概率(观察到x之后),贝叶斯公式,可被视为常量约掉!,贝叶斯公式,已知,未知,贝叶斯公式,贝叶斯决策的特例,特例1均匀先验概率:决策仅仅依赖于,从样本中观察到 的情况下,如果 ,则预测该模式为,贝叶斯决策的特例,特例2相同的类条件概率密度函数:决策仅仅依赖于先验概率,如果 ,则预测模式为,例子(1),类条件概率密度函数图,后验概率图,例子(2),问题有某种医学测试方法,在患有某种癌症的病人身上测试,返回阳性的概率为98%,在没有这种癌症的病人身上测试,返回阴性
3、的概率为97%。经专家统计,所有人口中患这种癌症的概率为约0.8%。请问,如果某人的检测结果为阳性,他到底有没有得这种癌症?解答已知计算由于 ,根据贝叶斯决策规则,该病人没有得癌症,如何确定概率?,应用贝叶斯决策规则,需已知如下概率对于某个具体问题,常常需要通过实验统计相对频率,或者利用概率密度估计技术来确定如上概率,例子,问题:在某大学校园内,根据轿车车身高度判断其价格是否超过5万美元?C1: price $50KC2: price $50K)中共有221个样本,其中,0.95x1.05(离散化后即x=1.0)的样本有46个样本,则:,例子,车身高度为1米的轿车价格是否高于5万美元?,结论:
4、低于5万美元,贝叶斯决策的最优性,从最小化误差概率的意义上讲,贝叶斯决策是最优决策先来看两类情况条件误差概率平均误差概率在贝叶斯决策中,对每一个x,P(error | x)都能被最小化,因此P(error)被最小化。,贝叶斯决策的最优性,对问题作如下泛化:允许多类情况;允许其他行为而不仅仅是判定类别;引入更一般的损失函数来替代误差概率。损失函数当真实类别为 时,采取行动 所带来的损失允许某种分类错误的代价高于其他分类错误条件风险(期望损失)当观察到x的时候,采取行动 造成的期望损失,贝叶斯决策的最优性,判决规则函数 将观察到的特征x映射到应采取的行动的函数总风险某个判决规则的期望损失最优决策使
5、得总风险最低的判决规则对任意给定的特征x,如果判决规则 选择的的行动能够最小化条件风险 ,那么总风险将最小化贝叶斯决策规则:对所有i=1,2,a,计算条件风险 ,选择行动 使得条件风险 最小化贝叶斯决策得到的最小总风险被称为贝叶斯风险,表示为R*,两类分类问题,行动 :判决为类别 :判决为类别损失 条件风险最小风险决策规则,如果 ,则模式为,两类分类问题,等价的最小风险决策规则通常情况下,分类错误的损失要大于正确的损失(正确时往往无损失)似然比,两类分类问题,基于似然比的贝叶斯决策规则,如果 ,则模式为否则,模式为,例子,不同的损失函数决定了不同的判决阈值 和 :“0-1”损失 :每一类的判决
6、域可能是不连续的,损失函数的特例:“0-1损失”,“0-1”损失(对称损失)函数决策正确时无损失,任何一种错误的损失都等于一个单位,即所有误判都是等价的“0-1”损失的条件风险该条件风险即误差率(error rate)最小化条件风险 等于最大化后验概率,最小误差率分类,最小误差率分类是采用“0-1”损失函数时的最小风险分类两类情况下的最小误差率分类判决规则多类情况下的最小误差率分类判决规则,如果 ,则模式为否则,模式为,如果 ,则预测该模式为,极小化极大准则,最小风险分类器依赖于先验概率在先验概率未知的情况下,如何设计风险较小的分类器?使先验概率取任何一种值时所引起的总风险的最坏情况尽可能小最
7、小化最大可能的总风险极小化极大(Minimax)准则,极小化极大准则,总风险对两类问题来讲:,代入 以及 ,可重写总风险公式:R与 成线性关系选择使 的 和 ,则总风险与 无关,此时的总风险称为极小化极大风险,极小化极大准则,极小化极大准则,极小化极大风险通过交换两种类别,极小化极大风险也可表示为例子,极小化极大风险(不依赖于先验概率),判别函数,分类器最常用的表述方式为判别函数 ,每个类别对应一个判别函数基于判别函数的判决规则,如果 ,则模式为,判别函数,基于最小总风险的贝叶斯分类器 基于最小误差概率的贝叶斯分类器 表达同样的判决规则可能采用不同的判别函数,只要满足如下条件:用 替换 ,其中
8、 为单调递增函数例如 ,其中k为正数常数 ,其中k为任意常数,判别函数,两类情况下仅需要一个判别函数判决规则例如,如果 ,则模式为 ,否则为,判决区域和判决边界,判决区域判决区域 是特征空间中的一个子空间,判决规则将所有落入 的样本x分类为类别判决边界判决边界是特征空间中划分判决区域的(超)平面在判决边界上,通常有两类或多类的判别函数值相等,多元高斯密度函数,d-维高斯(正态)密度函数 为d维均值向量 为 的协方差矩阵,通常为对称半正定矩阵表示为取log,正态分布的判别函数,类条件概率密度函数基于最小误差概率分类的判别函数,可忽略的常量,特例,情况1:均匀先验概率情况1a:均匀先验概率,并且各
9、特征统计独立所有特征具有相同的方差,平方欧几里德距离,特例,情况1:均匀先验概率情况1b:均匀先验概率,并且各类数据具有相同的协方差矩阵,平方Mahalanobis距离(马氏距离),情况1a和1b可被视为最小距离分类器,即将x划分为最近的均值 所属的类别,特例,情况2:,对所有i均相同,令 ,则得到线性判别函数,采用线性判别函数的分类器称为线性分类器(线性机器),第i个方向上的阈值(偏置),特例,情况2:一个线性机器的判决面是一些超平面,其中每一个超平面是由具有最大后验概率的两种类别的判别函数相等确定的:,该超平面通过x0,并且垂直于 ,即两类均值点之间的连线,x0,特例,R1,R2,R3,特
10、例,回到情况1a:均匀先验概率,并且判别函数仅与各类均值有关判决面,判决面为连接两类均值点连线的垂直中分线,特例,回到情况1a:均匀先验概率,并且,特例,如果先验概率不同?一维情况,特例,如果先验概率不同?二维情况,特例,如果先验概率不同?三维情况,特例,情况3:,对所有i均相同,特例,情况3:判决面由如下形式的超平面组成,x0,该超平面通过x0,并且一般情况下不垂直于,特例,回到情况1b:均匀先验概率,并且判决面,判决面通过连接两类均值点连线的中点,特例,回到情况1b:均匀先验概率,并且,特例,如果先验概率不同?,一般情况,任意高斯密度函数,令 , ,则得到二次型判别函数,一般情况,任意高斯密度函数两类情况下,判决面为超二次曲面,一般情况,任意高斯密度函数(多类情况下),例子,判决边界,判决边界并未经过1,2的中点 ,而是偏下一点,小结,贝叶斯规则基于观察值,将类先验概率 和类条件密度 转化为后验概率贝叶斯决策最小化总风险最小化误差概率:选择最大后验概率的类别贝叶斯决策是理论上的最优决策,贝叶斯风险是理论上的最小风险判别函数判决区域和判决边界,小结,多元高斯概率密度函数假设类条件概率密度满足高斯分布判别函数判决面,