1、1数据挖掘技术在通信企业客户离网分析中的应用摘要:随着市场竞争的日益激烈,如何降低客户离网率,是摆在各运营商面前的战略性任务。采用数据挖掘技术,从数据理解、数据准备、建立模型、模型评估和结果部署等五个阶段,详细介绍了通信企业中客户离网分析模型的建立过程及应用。 关键词:通信企业;数据挖掘技术;客户离网 Abstract: with the increasingly fierce market competition, how to reduce customer LiWangLv, is a strategic task in front of the operator. Using data
2、 mining technology, from the data understanding, data preparation, model, model assessment and result deployment of five stages, such as communication enterprise customer was introduced in detail from the establishment process and application of network analysis model. Key words: telecommunication e
3、nterprise; Data mining technology; Customers away from the net 中图分类号:F626.3 文献标识码:A 文章编号:2095-2104(2013) 随着数据挖掘技术的发展,数据挖掘的重要性己经被越来越多的人2认可,它是利用己知的数据通过建立数学模犁的方法找出潜在的业务规则。在国外很多的行业已经具有成功的应用。通信行业的应用领域主要有客户关系管理,客户欺诈分析,客户流失分析,客户消费模式分析,市场推广分析等。在国内随着对数据挖掘技术的重视,数据挖掘技术的应用研究也越来越广,其中对通信行业的客户离网分析就是一大热点。客户离网分析是通过对
4、以往流失客户的历史数据进行分析,找出可能离网用户的特征,及时采取相应的措施,减少客户流失的发生。 一、数据挖掘技术发展的根源 究其根源,数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可以对数据库进行查询和访问,进而发展到数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。而数据挖掘技术能够得以实现并投入商业应用,则要得益于三种基础技术海量数据搜集、强大的多处理器计算机和数据挖掘算法的发展。如果说上面讲述的是数据挖掘技术产生的外因,
5、那么内容则是数据技术可以用它如下的超能力产生巨大的商业机会: 自动趋势预测:数据挖掘能自动在大型数据库里面寻找潜在的预测信息。传统上需要很多专家来进行分析的问题,现在可以快速而直接地从数据中间找到答案。一个典型的利用数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根据过去邮件推销中的人量数据找出其中最有可能对将来的邮件推销作出反应的客户。 3自动探测以前未发现的模式:数据挖掘工具扫描整个数据库并辨认出那些隐藏着的模式,比如通过分析零售数据来辨别出表面上看起来没有联系的产品,实际上在多情况下是一起被出售的。 二、数据挖掘的过程及与通信客户离网分析有关的数据挖掘方法 1、数据挖掘的过程 数据挖
6、掘就是从杂乱无章的数据中找出规律,是把数据转化为信息的一个过程,它的目标是在数据中发现有价值的规则或者模式并用于指导实际应用。目前,实现数据挖掘的过程基本上大同小异。一般说来,数据挖掘项目要经历的过程包括:问题的理解,数据的理解,收集和准备,建立数据挖掘模型,评价所建的模型,应用所建的模型等一系列任务。例如,数据挖掘讨论组从挖掘环境的角度入手,提出确定业务对象、数据准备、数据挖掘、结果分析、知识的同化五个过程。 2、与通信客户离网分析有关的数据挖掘方法 数据挖掘面对的是海量的数据,需要挖掘的数据可能具有不完全的、有噪声的、随机的、数据结构复杂、维数大的特点。数据挖掘的大部分方法都不是专为解决某
7、个问题而特制的,一般来说并不存在所谓的最好的算法,在最终决定选取哪种模型或算法之前,各种模型都试一下,然后再选取一个较好的。各种算法在不同的数据环境中,优劣会有所不同。与通信客户离网分析有关的数据挖掘方法有: (1)神经网络 由于其本身良好的健壮性、自组织自适应性、并行处理、分布存储和高容错性等特点,近年来越来越受到人们的关注。典型的神经网络模4型主要分为三大类:用于分类、预测和模式识别的前馈式神经网络模型;以 Hopfield 的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以 ART 模型、Koholon 模型为代表的,t 用于聚类的自组织映射方法。神经网络的
8、知识体现在网络连接的权值上,是一个分布式矩阵结构;神经网络的学习体现在神经网络权值的逐步计算上(包括反复迭代或累加计算) 。运用神经网络的方法产生许多分类器,通过学习进行模式识别。神经网络是由多个非常简单的处理单元彼此按某种方式相互连接而成的计算机系统,可以完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络算法的缺点是“黑箱”性,人们难以理解网络的学习和决策过程。 (2)决策树 决策树是一种常用于分类和预测的算法,它通过将大量数据按照一定规则进行分类,从中找到一些有价值的、潜在的信息。决策树是一个类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个叶
9、节点代表类或类分布。它的基本思想是使用有属性描述的训练数据,根据属性构造决策树。从根节点到叶节点为一条生成规则。整棵树就代表着决策集的树形结构。用这棵树(或由这棵树形成的规则集)就可以对测试样本进行分类预测。 (3)近邻算法 将数据集合中每一个记录进行分类的方法。其中具有代表性的是 K最近邻算法。这种方法通过 K 个邻居的平均数据来预测该特定数据的某个属性或行为。这种方法可用作聚类、偏差分等数据挖掘任务。 5(4)遗传算法 遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。它包括基因组合、交叉、变异和自然选择等一系列过程。因其具有隐含并行性、易于和其它模型结合等性
10、质使得它在数据挖掘中被加以应用。遗传算法的应用还体现在与神经网络、粗糙集等技术的结合上,如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐含层单元;用遗传算法和 BP 算法结合训练神经网络,然后从网络提取规则等。但遗传算法相对来说过程较复杂。(5)粗糙集 粗糙集理论是八十年代初由波兰科学家 Zpawlak 首先提出的一种研究不精确、不确定知识的数学工具。粗糙集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单易于操作。粗糙集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗糙集的数据、一挖掘奠定了坚实的
11、基础。 (6)统计分析 在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系) 。对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计、回归分析、相关分析、差异分析等。6(7)模糊集 利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强。李德毅等人在传统模糊理论和概率统计的基础上,提出了定性定量不确定性转换模型一云模型,并形成了云理论。 三、应用实例客户离网分析 (一)业务问题定义 针对客户离网的不同种类分别定义业务问题,进而区别处理。
12、在客户离网分析中有两个核心变量:财务原因/非财务原凶、主动流失/被动流失。客户离网可以相应分为四种类型,其中非财务原因主动离网的客户往往是高价值的客户,他们会正常支付服务费用,并容易对市场活动有所响应。这种客户是企业真正需要保住的客户。此外在分析客户离网时必须区分集团/个人客户,以及不同消费水平的客户,并有针对性地制定不同的流失标准。 (二)数据选择 数据选择包括目标变量的选择、输入变量的选择和建模数据的选择。1、目标变量的选择 客户离网分析的目标变量通常为客户流失状态。根据业务问题的定义,可以选择一个已知量或多个已知量的组合作为目标变量。实际的客户流失形式有两种:因账户取消发生的流失,因账户
13、休眠发生的流失。对于因账户取消发生的流失,目标变量可以直接选取客户的账户状态7(取消或正常) ;对于因账户休眠发生的流失,可以认为持续休眠超过一定时间长度的客户发生了流失。这时需要对相关的具体问题加以考虑。 2、输入变量的选择 输入变量是模型中的白变量,在建模过程中需要寻找自变量与目标变量的关联。输入变量分为静态数据和动态数据。静态数据指不常变化的数据,包括服务合同属性(如服务类型、服务时间、交费类型)和客户的基本资料(如性别、年龄、收入、婚姻状况、学历、职业、居住地区) ;动态数据指频繁或定期改变的数据,如月消费金额、交费记录、消费特征。业务人员在实际业务活动中可能会感觉到输入变量与目标变量
14、的内在联系,只是无法量化表示出来,这就给数据挖掘留下了发挥的空间。 3、建模数据的选择 客户流失的方式有两种:第一种是客户的自然消亡,例如身故、破产、迁徙、移民而导致客户不再存在,或者由于客户服务的升级(如拨号接人升级为 ADSL 接人)造成特定服务的目标客户消失;第二种是客户的转移流失,通常指客户转移到竞争对手,并使用其服务。 (三)数据清洗和预处理 数据清洗和预处理是建模前的数据准备工作,一方面保证建模数据的正确性和有效性,另一方面通过对数据格式和内容的调整,使数据更符合建模的需要。数据整理的主要工作包括对数据的转换和整合、抽样、随机化、缺失值处理等等。例如:按比例抽取未流失客户和已流失客
15、户,将这两类数据合并,构成建模的数据源。此外,模型在建立之后需要大8量的数据来进行检验,因此通常把样本数据分为两部分,2/3 的数据用于建模,1/3 的数据用于模型的检验和修正。 (四)模型选择与预建立 在模型建立之前,可以利用数据挖掘工具的相关性比较功能,找出每一个输入变量和客户流失概率的相关性,删除相关性较小的变量,从而可以缩短建模时间,降低模型复杂度,有时还能使模型更精确。可以分别使用多种方法预建立多个模型,然后对这些模型进行优劣比较,从而挑选出最适合客户流失分析的建模方法。此外数据挖掘工具还提供了选择建模方法的功能,系统可自动判别最优模型,供使用者参考。 (五)模型建立与调整 模型建立
16、与调整是数据挖掘过程中的核心部分,通常由数据分析专家完成。需要指出的是,不同的商业问题和不同的数据分布属性会影响模型建立与调整的策略,而且在建模过程中还会使用多种近似算法来简化模型的优化过程。因此还需要业务专家参与调整策略的制定,以避免不适当的优化造成业务信息丢失。 (六)模型的评估与检验 应该利用未参与建模的数据进行模型的评估,才能得到准确的结果。检验的方法是使用模型对已知客户状态的数据进行预测,将预测值与实际客户状态作比较,预测正确率最高的模型是最优模型。 (七)模型解释与应用 在模型应用过程中,可以先选择一个试点实施应用,试点期间随时注意模型应用的收益情况。一旦发生异常偏差,则立即停止应用,并对9模型进行修正。试点结束后,若模型被证明应用良好,可以考虑大范围推广。推广时应注意,由于地区差异,模型不能完全照搬,可以先由集团总部建立一个通用模型,各省分公司在此基础上利用本地数据进行修正,从而得到适用于本省的精确模型。在模型应用一段时期,或经济环境发生重大变化后,模型的偏差可能会增大,这时应该考虑重新建立一个适用性更强的模型。 参考文献 1贾琳,李明基于数据挖掘的电信客户流失模型的建立与实现J计算机工程与应用,2004 2林杰斌,刘明德,陈湘数据挖掘与 OLAP 理论与务实M清华大学出版社,2002 3马莉,基于数据挖掘的电信客户流失成因研究D华东师范大学,2006
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。