1、1第七讲 预测性建模的一些基本方法2(一)判别分析判别分析适用于连续型自变量、名义型因变量的情形。例如,它可用于将贷款、信用卡、保险等申请划分为不同的风险类别。3(一)判别分析判 别 分析使用 贝 叶斯定理 对观测进 行分 类 。设 因 变 量 Y一共有 K个 类别 。 对 l=1,K ,令 l表示 类别 l的先 验 概率,它 们满 足 。设对 属于 类别 Y=l的 观测 ,自 变 量 X=(X1, ,X p)的概率函数或概率密度函数 为 fl(x)。根据 贝 叶斯公式 :对 于自 变 量 为 x的 观测 ,如果 Pr(Y =l* X= x)达到最大 (等价于 l*fl*(x)达到最大 ),那
2、么把 该观测归 入第 l*类 。4(一)判别分析最常用的判 别 分析方法 为线 性判 别 分析和二次判 别 分析,它 们 都假 设对 每个 类别 l(l=1, ,K) , 观测 的自 变 量 满 足多元正 态 分布,即 fl(x) MVN(l, l),其中 l和 l分 别 是均 值 向量和 协 方差矩 阵 。51、 线性判别分析线 性判 别 分析 :假 设 所有 类别 的 协 方差矩 阵 都相等,即 1= K= ;可以推出:6因 为 A的 值对 所有 类别 都一 样 ,所以察看 lfl(x)等价于察看 l(X)。1、 线性判别分析根据 贝 叶斯定理, 应该 把自 变 量 为 x的 观测归 入
3、l(X)值最大的 类别 。l(X)是 x的 线 性函数,它被称 为线 性判 别 方程。类别 l和 l的 边 界由 l(X) =l(X)给 出, 该边 界 对 x是 线 性的。72、 二次判别分析应该 把自 变 量 为 x的 观测归 入 l(x)值 最大的 类别 。二次判别分析 :不假设各类别的协方差矩阵相等。容易推出,察看 lfl(x)等价于察看下列二次判别方程 :类别 l和 类别 l的 边 界由 l(x) =l(x)给 出, 该边 界是 x的二次方程。83、 判别分析的参数估计在实际应用中,需要使用训练数据集来估计 l、 l和 l的值 : l由 训练 数据集中属于 类别 l的 观测 的比例来
4、估 计 ; l由 训练 数据集中属于 类别 l的 观测 的 样 本均 值 向量来估 计。3、 判别分析的参数估计估计 l :线性判别分析 : 由合并样本协方差矩阵来估计 ;设训练数据集中观测为 x1, ,xN,其中 N为观测数 ;考虑训练数据集中属于类别 l(l=1,K) 的观测,令 Nl表示这些观测的个数, Cl表示它们的序号的集合, 表示它们的均值向量,它们的样本协方差矩阵为 :合并 样 本 协 方差矩 阵为 :二次判 别 分析 : l由 Sl来估 计 (l=1, . ,K)。10判别分析虽 然 线 性判 别 分析和二次判 别 分析都基于很 简单 的多元正态 假 设 ,但是因 为 很多 实际 数据无法支持 过 于复 杂 的模型,所以 这 两种方法的 实际 分 类 效果 经 常令人惊奇地好。