1、1互联网金融的大数据应用刘 志摘要:数据是互联网金融的核心,大数据技术是保证互联网金融健康发展的关键支撑,互联网金融中的大数据应用包括精准营销、信用评估、资产定价和风险管理等。互联网金融大数据应用面临着共享失联、内容失真、处理失速、分析失能和安全失控的问题和挑战。关键词:互联网金融;大数据;精准营销;数据挖掘 大数据是继云计算、物联网之后信息技术领域又一次颠覆性的技术变革。随着社交网络、电子商务、互联网和云计算的兴起,音频、视频、图像、日志等数据量正在以指数级增长,呈现了爆炸性增长的趋势。金融作为社会经济活动的血液,对经济增长与社会进步具有非常重要的意义。对国内金融业来说, “大数据”是一个崭
2、新的主题,研究大数据时代背景下的金融业发展方向与趋势将具有非常现实的社会价值。一、大数据的定义及应用现状(一)大数据的定义大数据是指一般数据库软件难以获取、储存、管理和分析的大容量数据,包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。大数据通常具有“4V”(Volume,Variety,Velocity 和 Value)特征:数据体量巨大、数据种类繁多、流动速度快、价值密度低。从内涵上,大数据可主要归纳为数据、技术与应用 3 个方面:(1)数据类型方面,除了包括海量的结构化和半结构化的交易数据,还包括海量非结构化数据和交
3、互数据.(2)技术方法方面,核心是从各种各样类型的数据中快速获取有价值信息的技术及其集成。(3)分析应用方面,重点是采用大数据技术对特定的数据集合进行分析,及时获得有价值的信息。(二)大数据的应用现状大数据时代到来,首先引起全球高度关注的行业之一就是金融业,尤其是互联网金融,与其他行业相比,大数据对金融业更具潜在价值。麦肯锡全球研究所的评估结果显示,金融业在大数据价值潜力指数中排名第一。互联网金融具有显著的 IT 属性,每次互联网及通2讯技术的革新都会给金融业带来变革。互联网金融行业在 IT 基础设施、数据掌控力和人才集中度方面相较传统金融及其他产业具有明显的优势,具备了深度“掘金”的潜力。对
4、金融行业来说, “大数据”是一个崭新的主题,但并不是全新概念。 “大数据技术”是数据处理在方法、理念的上创新,对中国金融行业来说并非从“零”开始。事实上,国内金融行业在多年信息化建设中已经形成了推进大数据体系建设的诸多成果。不过,当前在数据分析和利用上还停留在“小数据”时代。数据多分散在各个业务系统中,数据量虽为海量,但多数为“沉默数据” 。对结构化数据利用有限,对非结构化数据的收集、分析则更缺少基本的处理机制和系统做法。新形势下,金融行业应加快推进大数据体系建设步伐,充分利用数据资源优势,挖掘信息价值,形成信息化时代新的竞争优势。二、互联网金融的大数据应用互联网金融的核心是数据,数据的规模、
5、真实性、有效性、数据分析应用的能力将决定未来互联网金融业的竞争力。而大数据技术正是互联网金融的重要技术支撑,人们在互联网上活动的信息会形成数据,通过对数据的收集、整理、挖掘、分析和深度应用,可在一定程度上实现互联网金融中的精准营销、信用评估、资产定价和风险管理等。当然还不止于此,互联网金融方兴未艾,新的应用还会不断出现。(一)精准营销大数据应用使得互联网金融改变了传统的营销模式,互联网企业通过对客户在网络上的交易、支付、行为数据信息的挖掘和分析,对客户进行分类,进而做到私人订制,实现精准营销。有研究表明,通过对场景类环境数据、用户经历和朋友关系的人文数据、购物和位置等的行为数据,建立连接变量模
6、型,并进行相关分析,可以实现对客户的分类管理。对客户细分后,可以定向投放广告和订制产品,达到精准营销的目的。比如支付宝从硅谷聘请了两家数据分析实验室从事行为分析,把客户细分成 50 个族群进行研究。又如,亚马逊从用户以往浏览、购买行为中挖掘潜在需求。梧桐理财网推出的 2 万元起点的“梧桐宝”的互联网理财产品,预期年化收益率 8%至 10%,目标客户是能够承担“两万元起投”的中产阶级。速溶网推出的“速溶 360”,目标客户是在校大学生及毕业生。 “住金所”的“安心-过桥贷”目标客户是中小微企业的银行贷款周转业务。(二)信用评估互联网金融的新模式引发对涉足互联网金融的个人和企业身份认证和信用评估的
7、变革,除了对评估对象静态信息的分析外,更重要的是变化中的动态信息的分析挖掘,建立用户的信用评分和增信模型。比如对涉足互联网金融的企业,它们在供应链的各个环节、如订3单、库存、下线、结算、付款等关键环节产生的数据进行清理建库、分析挖掘,进而建立企业的信用等级模型和算法,并根据其信用等级、成长性、未来发展预测等给予不同的信用额度,达到支持实体经济之目的。比如阿里小贷和上海科技金融研究院联合推出的科技型企业的财务信用系统,上海资信有限公司推出的“网络金融信息共享系统(NFCS) ”等,都为互联网金融信用系统的建立进行了有益尝试。对于个人用户,除了用户注册登记的实名制静态信息外,用户在网络上的购物、支
8、付、投资、生活、公益等数据形成了上百种场景的信息流,将这些静态和动态数据结合起来,就能形成用户的行为轨迹。通过交叉检验,对用户的真实身份进行识别,进而建立信用打分模型和算法,对用户进行分类,再提供针对性服务。比如阿里巴巴基于淘宝商户的数据,对其电商生态圈内潜在的客户提供纯信用贷款。阿里和腾讯拟推出的“虚拟信用卡” ,用户可以网上申请,经过对用户交易数据的核查,即可授予一定的信用额度。微众银行采用了贷款人的传统数据、社交数据和其他类数据,其中传统数据包括贷款人的银行储蓄、贷款和信用卡数据,社交数据包括贷款人在微信、QQ、腾讯微博和游戏、理财通等的数据。微众银行依据这些数据对贷款人的身份进行识别,
9、进而通过大数据分析对贷款人进行信用评估,并依此给出贷款人的贷款额度。阿里的芝麻信用、腾讯的征信产品、微信的公众号个人信用评分等都是互联网个人征信的开始。(三)资产定价产品定价是金融的核心内容之一,特别是金融衍生产品定价一直是学术界和实务界关心的重要领域,涉及数学建模和计算等。比如 Ripple 利用大数据对信贷中的数量配对、期限配对等配对能力的分析,使得其汇兑系统可以进行不同货币(甚至包括积分)间自由、免费、零延时的汇兑(配对) 。自 2007-2008 年美国次贷危机引发的全球金融危机以来,信用衍生产品的定价问题成了学术界和实务界的研究热点。以信用违约互换(Credit Default Sw
10、ap,CDS)定价为例,理论上常用的方法有结构化模型和违约化模型,其核心是违约过程的建模和估计,还要考虑违约的相关和传染性,通常需要复杂的数学模型,且验证困难。近期一种基于大数据的实证方法应运而生,即利用实际交易数据来估计违约概率。比如,著名的电商企业亚马逊对交易数据的掌握能力和处理深度,使其充分掌握了供应链上游的信用违约概率,进而已经非常接近可以给其核心消费者建立动态信用违约互换定价的程度,并且据此可以有效地放大消费者的消费能力,对金融产品和产品组合实施真正意义上的个性化定价。(四)风险管理4金融创新与金融风险相伴相成。互联网金融也是如此。互联网金融提高了金融效率,但也使风险跨越了地界和人际
11、关系,并呈现许多新形式,而监管的滞后和法律的缺失则非常不利于互联网金融风险的界定和防范。国际证券事务委员会及巴塞尔委员会所界定的八种金融风险(市场风险、信用风险、流动性风险、交割风险、操作风险、系统风险、法律风险、道德风险)在互联网金融中都有不同程度的暴露,且交织在一起。比如 P2P 网贷中频发的老板跑路、公司倒闭、拆标等的恶意欺诈,资金池、非法集资、非法吸收公众存款等违法事件;收益虚高的第三方理财;众筹中难觅优质项目、信息不对称、定价不完备、退出机制不健全等引发的资金安全问题;互联网金融门户沦落为流量批发商等。因此通过对互联网金融活动产生的大数据进行分析,及时发现风险,并采取措施加以规避和防
12、范,这方面工作亟待加强。主要包括“五防” 。一是防欺诈:利用数据分析实时监控用户的交易行为,比如分析用户输入每个字母的间隔时间的变化、地理位置的移动、交易行为的变化等来判断交易的真实性,是否本人操作等。又如监管部门利用交易数据,建立交易异动报警指标体系,动态监测和查验个股异动、敏感信息等,进而监测内幕交易、误导交易、市场操控和证券欺诈,挖掘“老鼠仓”案件的线索。二是防洗钱:对异地信用卡频繁刷卡套现行为的监控,比如对 POS 机上刷卡的数据流,提取若干中间变量,建立分类模型,识别用于洗钱的 POS 机类型,例如,对频繁出现同一张卡单笔金额小、但次数多、总金额大现象的 POS 机的识别,来防范利用
13、 POS 机洗钱。三是防流动性风险: 余额宝利用支付宝的大数据,对用户数、转化率和客单价等的分析,掌握几千万客户申购赎回情况、客户结构、客户行为规律,对客户申购赎回规律做出预测,并做好预案化解流动性风险。比如,月初发工资时段申购会增加,月底还信用卡时段赎回会增加,春节前申购会增加,还有日间不同时段的规律。2015 年 11 月 11 日,天猫一天成交额 912 亿,其中移动支付占 42.6%, “双十一”是最大单日赎回的日子,需要有充足的头寸和各种机制保障资金流动性。四是防客户流失:支付宝对开启和关闭帐户客户数据的分析建立了一个流失预警模型,进而采取相应措施争取和留住客户。五是防系统性风险:监
14、管部门通过对大数据的分析对互联网金融进行实时监管,对可能发生的风险进行预警,及时处置突发性事件,防止系统性风险的发生。三、大数据应用中存在的问题大数据的处理已经形成包括数据收集、整理、关联分析、数据挖掘、可视化等的产业5链,互联网金融已经成为产生大数据的重要领域,因此大数据应用中出现的问题和面临的挑战在互联网金融大数据应用中也有体现,具体表现为大数据共享失联、内容失真、分析失能、处理失速和安全失控等。(一)共享失联大数据共享失联表现在数据的公开、联通、共享方面的不尽人意。比如一些企业包括政府部门不愿公开数据,也有的是怕监管而不愿上传数据,造成公开数据部门吃亏、不公开数据部门占便宜的状况,形成了
15、囚徒困境的局面。又如网贷平台信息披露缺乏统一标准,历史数据不充分,使得一些网贷评级机构依据这些信息建立的评级模型和结果的公信力有待实践验证和优化。(二)内容失真大数据内容失真表现在大数据中含有大量的噪声信息甚至是虚假信息,出现信息过载的问题。大数据的价值在于将巨量的小数据连接起来形成可辨别的模式,但这些“小数据”中有相当比例是垃圾。如何从数据里检测噪声,去除垃圾,去伪存真,考验着我们对大数据的处理能力。(三)分析失能大数据分析失能表现在数据分析挖掘能力的不平衡,并非互联网金融的所有参与者都具备大数据分析挖掘的能力,比如一些 P2P 平台和借款人的违约、破产、跑路,凸显了出资人和监管部门对 P2
16、P 平台和借款人信用评估能力的缺失。事实上由于大数据的体量和处理速度,大数据需要并行化处理,传统的数据理论和挖掘方法已经不完全适用,需要在理论和方法上有突破性进展。(四)处理失速大数据处理失速表现在对大数据处理速度还不能满足各方的需求。大数据不仅表现在它的体量之大,还表现于数据来源、噪声水平和其他因素引起的其频率和内容变化之快,这些变化定义了一个大数据问题的复杂性。通常我们说大数据至少要达到 1TB 的量级,而大多数中小企业和个人并不具备这种处理能力。要解决大数据问题,我们需要先解决一些小数据问题,比如每天处理 1TB 数据的能力,意味着需要每秒处理 12MB 的能力,12MB 并不是一个大的
17、数据量,关键是要在 1 秒内处理完毕。(五)安全失控大数据安全失控表现在用户信息的泄露和滥用、法律法规建设的滞后。比如利用客户交易信息进行轰炸式广告投放的过度营销,用户刷二维码支付、下载不安全的 APP 可能泄6露个人的信息,买卖用户信息的非法交易也时有耳闻。此外由于互联网企业信息管理漏洞造成客户信息的泄露,如支付宝 20G 的用户信息外泄、黑客利用某分享网站的漏洞获取了数百万个账户的用户名和电话号码。因此信息安全问题是关系到互联网金融能否健康发展的关键问题之一,现有的信息安全手段难以满足大数据应用的安全要求。关于数据产权、公开、使用和安全方面的法律法规缺失,必须引起政府部门和互联网金融参与各
18、方的高度重视。四、大数据应用的发展趋势大数据时代,需要新的逻辑和思维,需要想象力,大数据时代的核心词是开放与融合。个人认为,在大数据时代,未来的金融业,尤其是互联网金融将发生以下几方面的重要变化。(一)开放程度越来越高随着移动互联网、云计算、大数据等新兴信息技术的发展,改变了传统的信息产生、传播、加工利用的方式,特别是基于互联网技术和移动支付技术的互联网金融打破了信息不对称和物理区域壁垒,通过信息流、数据流引导各类资源的充分有效分配,甚至资金供求双方可以通过网络直接获取信息并参与交易,促使传统的生产关系发生变革,形成了联网机构相对平等的关系。(二)产品服务的数字化从长远来看,随着数据化和网络化
19、的全面深入发展,大数据的应用将使传统金融机构的相关职能进一步发生变化,如银行的资金中介职能,体现出电子化交易特征,逐渐向数字化方向发展,全面颠覆当前金融服务形态。电子货币等数字化金融产品在经济生活中将成为主流,借助互联网技术,金融机构将更广泛地通过虚拟的渠道向客户提供各种金融服务。未来互联网金融的整体运作将是一个数据的洪流, “数字金融”将得以全面实现。(三)生产力进一步提高与物质资本、人力资本一样,大数据将成为经济活动一个重要的生产要素,它也可以转变成为生产力,创造巨大的经济价值。如部分金融产品及交易的数字化,使金融供应链外延,降低了全社会融资成本和财务费用,提高整个市场的生产效率。五、结论
20、本文就互联网金融中大数据的应用和存在的问题进行了初步探视和分析,只有及时发现和解决互联网金融中出现的问题,完善相关法律法规,互联网金融才能健康发展,进而为金融改革创新做出贡献,造福于民。同时加快社会急需的数据科学家、数据分析师、数7据工程师等人才培养,加强大数据理论和应用的研究及成果转化,为互联网金融保驾护航。参考文献1 叶中行.互联网金融的风险防范. 开发性金融研究, 2014, 1(3): 46-51.2 上海市政府印发关于促进互联网金融产业健康发展若干意见通知. 沪府发201447号.3 中国互联网金融报告(2014).4 2013 中国网络借贷行业蓝皮书.5 吴昱. 大数据精准挖掘.
21、第 1 版. 北京: 化学工业出版社,2013.6 Thomas L C, Edelman D.B, Crook J N. Credit Scoring and its Application. 第1 版. SIAM, Philadelphia, USA, 2002.7 赵勇, 林辉, 沈寓实. 大数据革命-理论、模式与技术创新. 第 1 版. 北京: 电子工业出版社, 2014.8 涂子沛. 大数据. 第 1 版. 桂林: 广西师范大学出版社, 2012.9 Rajaraman A, Ullman J D. 王斌译. 大数据-互联网大规模数据挖掘与分布式处理 . 第 1 版. 北京: 人民邮电出版社, 2012.10 Steele J, Iliinsky N. 祝洪凯,李妹芳译. 数据可视化之美.