评分模型的评价指标.doc_文客久久网wenke99.com

资源描述

1、评分模型的评价指标【摘要】如何评价一个评分模型的判别能力，一般在统计上用ROC、CAP（能力曲线）、K-S 统计量、GINI 系数统计量等图形工具或统计指标。其中 ROC 曲线是较受欢迎的，而 K-S 统计量、GINI 系数等和 ROC曲线之间有一定的联系。【关键词】评分模型评价指标如果把业务上的二分类问题（例如信用评分中的“好”与“坏” 、“拒绝”与“接受” ）从统计角度理解，都在于寻找一个分类器（classifier），这个分类器可能是 logistic 模型，也可以是多元判别模型（Edward Altman1968 年发展的基于财务指标建立的企业破产识别 z得分模型），还可以

2、使其它复杂形式的模型。一、ROC 曲线 ROC，英文全称 Receiver Operating Curve，翻译成中文，简称受试者工作特征曲线。其在统计实务中应用甚广，尤其应用于处理医学研究中的“正常组”和“异常组”区分建模问题，用于评价分类模型的表现能力。（一）ROC 曲线原理。要说清楚 ROC 曲线的原理，我们从一个简单的分类实例问题说起。假如我们有了基于商业银行企业贷款数据建立违约-非违约的业务分类模型，比如说我们是预测的所有样本的违约概率或者信用评级得分，比如信用评级得分，我们获得了关于两类样本的分布图形：图 3.1 两类样本的违约率经验分布 1.基本假设上面的图例可以看成一

3、个基于银行债务人违约率分类的分类器。左边的分布表示历史样本数据中违约者预测得到的违约率的分布；右边的分布相应表示非违约者的分布，其中 C 点表示决策者做出决断的切分点（cutoff），对于该点有这样的经济意义：一旦我们确定了 C 点，不考虑其他业务处理，的样本被预测为违约者，反之被预测为非谓语这。对于一个固定的 Cutoff 点，我们可得到一些有实际意义的量化指标： HR（C）=，表示在 C 点左边，对 Defaulters 的信用得分分布中，基于 C 点做决策时候，被正确命中的比率，这里 H（C）表示被正确预测的违约者的样本个数，ND 表示违约样本的总数。 HR（C）=，表示在 C 点左边

4、，对 non-Defaulters 的信用得分分布中，基于 C 点做决策时候，被错误预测的比率，这里 F（C）表示被错误预测的违约者的样本个数，NND 表示非违约样本的总数。 2.ROC 绘制方法很显然，当我们移动 C 点的时候，我们得到了一个二维坐标点的集合，FAR（C），HR（RC）|C？缀信用得分区间这里的 FAR（C），HR（C）是风险管理领域的专用表示方法。将其用统计中的一些概念进行一般化处理，得到：FD（C）=，表示在 C 点左边违约样本个数，FD（C）表示在 C 点违约者信用得分的累积概率；FND（C）=FAR（C）则相应表示非违约者信用得分的累积概率；同样我们可得到二维坐

5、标集合FND（C），（C）|C？缀信用得分区间。我们将FND（C），（C）|C？缀在 xy 坐标平面上绘制，就得到了 ROC曲线。（二）ROC 曲线与其他评价指标间关系。 1.K-S 统计量图 3.2 ROC 曲线切线K-S 统计量 K-S 检验，用于检验样本是否来自一个指定的分布或者检验两类样本是否同分布（独立）。对上述例子，两样本分布独立性的检验常用 K-S 统计量： D=MAX|FD（S）-FD（S）|，这里为了符合常识，我们用表示变量得分。 2.GINI 系数/AR（accuracy rate）准确率 GINI 系数和 AR（accuracy rate）准确率实际上是同一

6、个东西，GINI 系数这一称呼不知道来源于哪，倒是 AR（accuracy rate）准确率这一术语常常在金融风险管理中出现。它的计算方法是：ROC 曲线和对角线之间的面积与 perfect model（y=1 直线）和对角线（y=x）围成的面积之比，用于度量模型精确性的一个相对指标。 AR=，这里表示 ROC 曲线与对角线围成的面积，pD 表示 y=1 直线与对角线围成的面积。很容易计算：AR=2AUC-1。 3.LR（似然比）考虑 ROC 曲线上的导数，很显然由这个关系式，我们得到在 ROC 曲线上某点的似然比（可以直接理解成得分的好坏比）为该点的导数，这一指标可以刻画模型局部的区分能力

7、。二、CAP 曲线 CAP 曲线，亦称能力曲线，被各大银行和评级机构用于对违约率（PD）类模型的检验，它检验模型的预测结果排序能力。我们依然以上面信用评分模型为例子，能力曲线的绘制通过以下步骤得到： 1.对已经评分的银行客户按其预测的违约概率从高到低排序； 2.横坐标表示客户按违约率概率从高到低排序后得到样本总数的累计百分比，纵坐标表示违约客户总数的累计百分比； 3.曲线上任何一点的坐标具有如下意义：表示给定所有排序后客户样本的一个比例；表示在给定的条件下，违约客户概率大于等于比例的客户中最小概率样本个数占总的违约客户样本总数的比率。很显然，对于任何水平方向的数值，曲线越高，表明模型的预测能力越强。参考文献： 1郭英见，吴冲.基于信息融合的商业银行信用风险评估模型研究J.金融研究，2009，01.

展开阅读全文