1、1基于套索的小微企业贷款审批提要 小微企业是民生银行三大核心客户群体之一,根据民生银行天津分行商贷通申请材料,整理出 24 个指标。以授信额度为因变量,其他变量为自变量。采用最小角回归、广义线性模型弹性网和分组 group lasso 三种方法计算。结果发现 lasso 变量选择功能最强,弹性网次之,而分组 group lasso 较弱。综合几种方法结果,企业从事行业对于银行贷款授信额度影响最大,一般建筑、交通运输设备容易获得贷款,而从事金属、日用品的企业较难获得更多贷款。 关键词:小微金融;lasso;最小角回归 中图分类号:F83 文献标识码:A 收录日期:2013 年 4 月 20 日
2、小微企业贷款是民生银行的重要特色之一,截至 2011 年末,中国民生银行的小微企业贷款余额已经超过 2,300 亿元人民币(约合 360 亿美元) ,不良贷款率只有千分之一点五左右,民生银行已经成为全球最大的小微企业金融服务提供商。小微企业客户具有户数众多、客户分散等特征。在中国银行业,小微企业贷款一直被认为是“高信用风险、高人工成本”的业务,20 世纪八十年代中国各大国有银行都有过给小商户贷款遭遇巨额不良贷款的惨痛经历。如何筛选优质可靠小微企业,降低信用风险是进军小微企业贷款领域首先需要思考的问题。本文结合天津民生支行实际情况,从贷款小微企业申请表格中整理出一套指标体系,利用2lasso 筛
3、选出重要影响指标,方便操作,对于风险评估、确定授信额度等提供借鉴和帮助。 一、小微企业贷款分析指标 小微企业客户具有户数众多,客户分散等特征。 “商贷通”目标市场选择的基本原则在于运用“大数法则”测算出特定行业的风险概率,甄选“商贷通”业务进入的行业,迅速地找到有效客户群体,并对其进行批量营销。 最后整理指标体系包括 24 个指标,有姓名、性别、年龄、婚姻状况、有无子女、最高学历、已有额度、我行余额、资产合计、负债余额、月供支出、信用记录、从事行业 I、从事行业 II、从业年限、经营模式、员工人数、年经营收入、半年流水、年利润、公司信用、行业利润额、担保方式、授信额度。其中,一类行业:批发和零
4、售业,制造业,住宿和餐饮业,交通运输、仓储邮政业,信息传输、计算机服务和软件业,租赁和商务服务业,居民服务和其他服务业,建筑业,房地产业,教育,文化、体育、娱乐业,其他。二类行业:食品,饮料,烟草,纺织,服装,日用品,文化体育用品,器材,医药、医疗设备,家具,建材,工艺品,五金交电,机械设备,通信设备、计算机、电子,皮革毛皮,造纸,塑料,橡胶,非金属,金属,金属制品,交通运输设备,化学制品,仪器仪表,专用设备,通用设备,废弃资源和废旧材料回收加工业,代理。 指标体系中有数值型和分类指标,数值型指标可以直接分析,而分类指标需要编码之后才能分析。该指标体系按照申请人在民生贷款时所3填表格整理得到,
5、主要包括个人基本情况、家庭资产及负债状况和公司情况三个方面。由于指标太多,希望从中找出授信额度的最重要影响指标,方便以后贷款审批和分析。 二、lasso 方法 所谓 lasso,也有翻译成套索,其全称是 least absolute shrinkage and selection operator。最早提出 lasso 的是 Tibshirani在 1996 年 Journal of the Royal Statistical Society:Series B 上的一篇文章 Regression shrinkage and selection via lasso。对于线性回归,在普通最小二乘的
6、基础上加入 L1 范数惩罚。其想法是在限制了系数总和的情况下,求使得残差平方和达到最小的回归系数的估值。 min(y-x) s.t. s 其中,y 是第 i 个样本的输出值,总共 N 个样本。x 是第 i 个样本的第 j 个输入变量, 是第 j 个输入变量,总共 p 个输入变量。 但是,lasso 提出之后没有受到太多关注,直到 2002 年 Efrn 提出最小角回归之后,才变成热点。Tibshirani 自己分析可能是如下原因: (1)1996 年提出的 lasso 算法相比于今天太慢; (2)当时 lasso 算法是个“黑箱子” ,没有显著的解释; (3)稀疏性(sparsity)的重要性
7、并没有被人们认识; (4)海量数据问题较少; (5)当时 R 语言没有流行,几年之后 R 语言可以轻松分享最新算法4软件。 三、lasso 分析结果 由于所选指标中有数值类型和分类变量,数值变量可以直接处理,分类变量回归之前需要编码。本文采用虚拟编码,涉及到性别、婚姻状况、有无子女、从事行业 I、从事行业 II、经营模式、公司信用、担保方式 8 个分类变量,编码之后总共 38 个变量,增加了 15 个变量。 R 语言中有多个宏包附带 lasso 算法,最有名的就是 Efron 的最小角回归 lars 包,该包的 lars 函数提供了 lasso 四种算法:凸二次规划的“lasso”,最小角回归
8、“lar” 、前向逐步回归“forward.stagewise”和阶梯式算法“stepwise” 。拟合之前需要将每个自变量和因变量标准化,减去均值,除以标准差,使得每个变量均值为零,方差为 1。将授信额度为因变量,其他所有变量为自变量。挑选出对授信额度影响最大的变量指标。系数路径如图 1 所示,图形横坐标表示不同取值下,38 个变量系数向量的 L1 范数与最大向量 L1 范数比值。纵坐标表示不同情况下,38个系数取值。当限制系数向量 L1 范数不同值时,所估计系数不尽相同。到底限制多少时,所得系数估计最优。一般采用十折交叉证实计算均方误差,取最小均方误差对应的系数向量 L1 范数限制。 (图
9、 1) 最后选择结果表明,从事行业 II 对贷款授信额度影响最大,其次为婚姻状况,最后为已有额度。按照银行业务员的经验,行业对于授信额度审批至关重要。利润率高的行业获批授信额度更多。系数最大的是从事行业 II 交通运输设备 0.43,表明交通运输设备行业备受银行青睐,从事建材的企业也容易获批贷款。从事行业 II 金属、从事行业 II 日用品、5从事行业 II 医药、医疗设备和从事行业 II 仪器仪表系数为负,表明与基准代理行业相比,这些行业获批贷款更难一些。 已婚和离异的申请人对于授信额度的影响差别不大,但是相比于未婚申请人,已婚和离异申请人申请的授信额度要大得多。一般未婚申请人比较年轻,事业
10、刚刚起步,获得的授信额度较小。但是,已婚和离异的申请人年龄较大,都是事业有成的成功人士,获批的额度较大。在民生银行已有贷款额度系数很小,前两位小数为零。由于该指标强调的是在民生银行本行的贷款额度,没有考虑申请人在其他银行的贷款,不能完全反映申请人贷款情况,所以其系数较小,但是认为已有贷款额度对于授信额度具有较大影响。 四、总结 本文从民生银行小微企业贷款申请表格中提取 24 个指标,以授信额度为因变量,其他变量为自变量。利用 lasso 的变量选择功能,从中挑选出对于贷款影响的一些变量,方便银行人员审核和批复。结果表明:企业所在的行业对于贷款的影响最大,银行可以根据不同行业进行专业分析。 主要
11、参考文献: 1Tibshirani R.Regression shrinkage and selection via the lassoJ.Journal of the Royal Statistical Society.Series B(Methodological) ,1996. 2Efron B,Hastie T,Johnstone I,et al.Least angle regressionJ.The Annals of statistics,2004.32.2. 63王占锋,吴耀华,赵林城.删失回归模型中一个 LASSO 型变量选择和估计方法(英文)J.应用概率统计,2010.1. 4邵伟,祝丽萍,刘福国等.对称阵稀疏主成分分析及其在充分降维问题中的应用J.山东大学学报(理学版) ,2012.4. 5谭理想.双线性时间序列模型的 Lasso 方法定阶D.南京:南京大学,2012.