1、一、 假如你是某移动运营商的数据分析师,结合用户通话行为数据,通过数据分析为用户推荐相应套餐或者结合用户现有套餐优化套餐,提供个性化套餐,从而对客户进行精准营销,增加客户粘性。运营商收集到的数据包含下列字段;变量名称 变量标签Customer_ID 用户编号Peak_mins 工作日上班时间电话时长OffPeak_mins 工作日下班时间电话时长Weekend_mins 周末电话时长International_mins 国际电话时长Total_mins 总通话时长average_mins 平均每次通话时长根据客户行为数据,进行数据的预处理(可以自行根据现有变量构造新变量进行分析) ,预处理之后
2、选择适合变量进行分析,分析算法自行选择,写出分析思路和过程,通过数据分析对客户进行细分,并为运营商提供客户精准营销的相关建议。 (请写出分析的流程并刻画最后细分之后的客户的特点和相应的营销建议) 。K-Means 据类的步骤:1. 确定所有聚类变量(聚类因子) ;2. 数据预处理(分类变量数值化、处理缺失值、分析是否存在共线性等,若只有两个变量共线则用比值法,较多变量共线用主成分分析进行降维) ;3. 确定聚类个数并用处理后的聚类因子进行聚类分析(若未说明则需要尝试不同的聚类个数3,4,5,6,7,从中选择平均轮廓系数较大且结果易于分析解释的模型) ;4. 分析聚类效果和聚类结果(类中心点和每
3、个类等) ;5. 结合实际情况分析每类的意义等 。(聚类分析处理共线性时不能直接删除,可用比值替代或主成分分析等来消除共线性)案例分析:观察数据类型,检查数据是否具有缺失值。数据类型为数值型,原始数据没有缺失值。我们把数据导入 DATAHOOP 平台,在展示分析中进行异常值分析。分析结果如下表:Peak_mins OffPeak_mins Weekend_mins上四分位 1382.1 426.825 74.875中间值 1030.2 274.05 44.4下四分位 700.2 154.425 25.05异常值个数 6 5 5International_mins Total_mins aver
4、age_mins上四分位 389.03 1781.3 4.2075中间值 294.075 1370.85 2.73下四分位 221.2275 1094.925 2.1异常值个数 13 11 36由上面可以得到异常值的个最多的具有 36 个,在数据总体样本中占比比较大。所以不处理异常值,这些异常值有可能是数据中一些特殊的类。进行相关系数矩阵分析,分析得到的相关系数矩阵如下:Peak_mins OffPeak_mins Weekend_mins International_mins Total_mins average_minsPeak_mins 1 0.121 0.1448 0.6915 0.9
5、415 -0.0367OffPeak_mins 0.121 1 0.0247 0.262 0.4425 0.0094Weekend_mins 0.1448 0.0247 1 0.1282 0.2006 -0.1066International_mins 0.6915 0.262 0.1282 1 0.7123 -0.034Total_mins 0.9415 0.4425 0.2006 0.7123 1 -0.0364average_mins -0.0367 0.0094 -0.1066 -0.034 -0.0364 1观察相关系数矩阵中有一个相关系数为 0.9415,该系数比较大。所以我们要处
6、理,我们用比值替换法(把两个变量做比,得到的比值替换其中的一个变量) 。我们在数据中重新插入一列为 得到他们的变量比值,替换 Peak_mins 变量。得到新的变量,我们把新Peak_minsTotal_mins的数据导入 DATAHOOP 中求出相关系数矩阵:OffPeak_mins Weekend_mins International_mins Total_mins average_mins Peak_mins/Total_minsOffPeak_mins 1 0.0247 0.262 0.4425 0.0094 -0.4771Weekend_mins 0.0247 1 0.1282 0.
7、2006 -0.1066 0.0079International_mins 0.262 0.1282 1 0.7123 -0.034 0.3939Total_mins 0.4425 0.2006 0.7123 1 -0.0364 0.4492average_mins 0.0094 -0.1066 -0.034 -0.0364 1 0.0116Peak_mins/Total_mins -0.4771 0.0079 0.3939 0.4492 0.0116 1得到的相关系数矩阵中的相关系数没有大于 0.85,所以解决了共线性。我们可以直接进行K-Means 聚类。聚类的参数在有聚类的个数为 5,进
8、行标准化,初始中心点选择的次数要大,最大迭代次数也要大。然后进行 K-Means 聚类,运行结果如下:平均轮廓系数: 0.2467该平均轮廓系数是比较小,平均轮廓系数越接近于 1 越好。实际案例里面我们有可能我们得不到太大的轮廓系数,聚类效果是不明显。聚类不是太明显,但聚类是有区别的。我们研究该聚类的区别。类别 类中心点坐标 样本个 数0 -0.6972 -0.00146 -0.10973 -0.08154 -0.15909 0.786669 1911 0.469649 -0.07189 1.4365 1.293804 -0.04352 0.473255 892 -0.03111 -0.567
9、5 -0.53938 -0.48712 3.645248 -0.10716 183 0.721084 0.237837 -0.25106 -0.18959 -0.11827 -0.83047 1754 -1.37056 -0.98922 -2.12987 -2.30509 -0.4263 -1.80452 25我们得到上面表格的类中心点坐标是经过我们标准化的,我们还原成原来的数据。得到原始的分类,然后求每一类的平均值,总结如下表:Peak_minsOffPeak_minsWeekend_minsInternational_minsTotal_minsaverage_mins01068.3763
10、00.1317 53.96551 315.5413 1422.473 3.59957911305.872349.0611 57.77315 366.6326 1712.706 3.59243721078.467300.9404 52.69453 314.994 1432.102 4.00812231068.291300.6339 53.96841 315.9593 1422.893 3.6020674 52.6952 39.37861 18.23432 15.56027 110.3081 2.785264对类进行特征分析:0 类:总通话(Total mins)较长,下班通话时间(Offpeak
11、 mins)最长,上班通话时间(Peak mins)比较长,命名为中端客户;1 类:总通话(Total mins)长,上班通话时间(Peak mins)长,周末通话时间(Weekend mins)较长,国际通话时间(International mins)长,命名为高端用户;2 类:总通话(Total mins)较长,上班通话时间(Peak mins)仅次于第一类,周末通话时间(Weekend mins)居中,国际通话时间(International mins)居中,命名为中端用户;3 类:在各项中均较低,命名为不常使用用户;4 类:平均每次通话时间(average mins)最长,命名为长聊用户。综上,根据以上客户细分的结果和特征分析,移动产品开发部门有针对性的开发设计套餐品类,满足不同类型的客户的实际需求,增加客户黏性,提高客户的满意度,最终提高客户的生命周期价值。