1、基于 Logistic 回归的商业银行客户分类模型【摘要】自从 2003 年以来的短短几年时间,中国信用卡市场已经迅速成长为一个拥有超过 4 亿张发卡量的活跃市场,逐渐呈现出“井喷”式的高速增长。然而,信用卡本身经营风险的特质以及发卡量迅猛增长带来的过渡营销,都对商业银行信用卡业务的盈利提出了挑战。对于银行来说,如何识别出潜在的“坏客户” ,成为至关重要的问题。 【关键词】银行卡 客户分类 logistic 回归 风险识别 信用卡业务是银行眼中的高利润市场领域,也是各个银行争相占据的一个重要市场领域,来自央行的数据显示,目前,中国信用卡累计发行量已经突破 4 亿张,大约相当于每个中国家庭都拥有
2、一张信用卡。 从消费者不良行为统计上看, 2014 年信用卡报告显示,近三成的人有过因为还不起全部账单而只还最低款项的行为,21.29%的人表示他们有过信用卡套现行为,15.59%的人近两年有过未及时还款导致的征信记录不良的情况。 客户的信用卡可能违约情况与该客户的基本资料直接相关。比如说,从经验上,我们知道:高收入者的信用程度普遍比低收入者要高;有责任担保人的客户违约概率比没有担保人的客户低;年轻人个人消费信贷理念比年长者更开放;女性群体比男性群体可能更热衷于使用信用卡,因为女性更热衷于购物;都市化程度高的地区的客户消费观念比都市化程度低的地区的客户更为开放;等等。 针对上述情况,银行对用户
3、基本资料的搜集,财务状况的判定,以及对其违约可能性的量化分析就显得十分必要。本文立足于某金融机构的六万多条信用卡数据,致力于分析每个客户的基本信息与其违约概率之间的一种关系,并量化出该关系,进而利用这种规律,对现有的老客户信用卡额度控制和催还款项方面实现更加规范的管理,对新客户是否发卡以及发卡额度方面做到有依据可循。这样,必定能够在很大程度上控制和管理该金融机构的信用卡业务风险。 一、理论准备 信用卡申请风险评级的结果通常用违约行为的出现与否来表示,对于这种二分类型问题使用 Logistics 回归方法要方便的多。申请人的违约概率在0,1区间内取值,但一般线性回归方程则要求因变量取值落在实数集
4、中,因此,先对违约概率做逻辑变换,将其取值区间替换成整个实数集,再建立回归模型即可轻松解决这一矛盾。 (一)样本选取与数据筛选 数据是模型的基础,因此在建立风险评估模型时,首先要对样本数据进行必要的筛选,对于那些数据记录不全面的、存在缺失项的数据,若贸然引入其他数据插补法可能会造成不必要的其他误差。又同时考虑到数据量较大,因此对于有缺失值的样本采取直接剔除法,本文将剔除4364 个样本。此外,考虑到多数变量都为定性分类变量,因此还要对数据进行转化成 0-1 变量。 其次,需要抽取训练样本和检验样本。经整理得到适合建立模型的样本之后,需要对样本进行抽样分组。在随机抽样的指导原则下,将样本按一定的
5、比例随机分成两部分:一部分用于模型的建立,通常称为训练样本;另一部分则用来检验所构建的风险评估模型是否具有足够的分类预测能力,一般被命名为检验样本。 (二)指标的选择和确定 首先,我们需要给出一个评判标准来分辨好客户和坏客户。根据银行的现有数据记录,我们将禁入类客户、高风险客户和瑕疵类客户识别为坏客户,而正常类客户识别为好客户。同时引入哑变量,用 1 来代表坏客户,0 代表好客户。 在自变量的选择上,我们决定选取信用卡张数(x1) 、使用频率(x2) 、户籍(x3) 、都市化程度(x4) 、性别(x5) 、年龄(x6) 、婚姻(x7) 、学历(x8) 、职业(x9) 、个人月收入(x10) 、
6、个人月开销(x11) 、住家(x12) 、家庭月收入(x13) 、月刷卡额(x14) 、人口数(x15)和家庭经济(x16)共计 16 个变量,并不选取逾期、退票、呆账记录等其他变量。不是因为他们与因变量无关,而是这些变量都是事后变量,当一个新顾客到银行办理信用卡时,这些信息并不可知。 1.低风险客户(p 小于 0.25) 对于风险较低的客户,银行可以适当放宽对这类客户的授信额度,在充分分析其消费承受能力后,采取一些鼓励其消费的手段如降低逾期还款利率、延长还款期限、提供更加优惠的产品购买分期付款政策,来吸引客户扩大消费,增加银行的利益。但对于这部分客户要十分注意的一点是,一定要准确地判断客户的
7、消费能力,不能盲目地鼓励客户消费,警惕这些低风险客户转化成一般风险乃至高风险客户的状况,定时通过电脑消费记录的显示分析这些低风险客户的消费状况和偿还状况,适当调整客户的风险评级划分。 2.一般风险客户(0.25p0.50) 对于一般风险的客户,维持现有的授信额度和逾期利率以及一般催缴措施即可,不需要做较大范围的调整,不过要特别注意的是要加强对这些客户的日常开支的关注,当这些客户出现由一般风险转变为高风险的趋势时,要根据历史消费记录并尽量与客户联系及时了解其原因,并及早预警,对这些客户实施实时的信用卡消费监控,准备好如降低其授信额度,提高其逾期利率等措施,一旦其转变为为高风险客户,及时采取措施,
8、最大化降低银行面临的风险。 二、结论 本文利用 logistics 回归分析的方法考虑不同人的基础信息对于信用的好坏进行了回归建模,最后得出了一个判别准则对于好坏客户的识别率均达到 95%以上,并且会伴有一定的概率。同时,我们将概率区间划分为四块,对于四种不同概率的客户我们提供不同的风险控制手段,如额度的控制以及监督的频率等,达到更好的监督和管控。 本文通过以上结论的提出,旨在对我国信用卡风险管理研究能够起到积极的推动作用,希望我国商业银行可以尽快完善信用卡风险管理的体系,不断建立科学有效的信用卡风险控制机制,从而促进信用卡业务稳健、健康、快速发展。 参考文献: 1郑颖.商业银行信用卡申请风险评级模型研究D.哈尔滨:哈尔滨商业大学硕士学位论文, 2014, 6. 2张晓琦.我国商业银行信用风险度量及管理研究D.哈尔滨:哈尔滨工程大学硕士学位论文, 2011, 11.