ImageVerifierCode 换一换
格式:DOCX , 页数:8 ,大小:414.95KB ,
资源ID:879899      下载积分:5 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-879899.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(考试模拟样题数据分析应用附答案.docx)为本站会员(h****)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

考试模拟样题数据分析应用附答案.docx

1、1(50.0 分)移动公司想结合用户通话行为,推荐相应套餐,或者结合用户现有套餐优化用户套餐,提供个性化套餐,从而对客户进行精准营销,增加客户粘性。为此,移动公司收集了下列数据,移动公司收集到的数据包含下列字段:变量名称 变量标签Customer_ID 用户编号Peak_mins 工作日上班时间电话时长OffPeak_mins 工作日下班时间电话时长Weekend_mins 周末电话时长International_mins 国际电话时长Total_mins 总通话时长average_mins 平均每次通话时长data-移动用户细分聚类.xlsx移 动 用 户 细 分 聚 类请你根据这些客户数据

2、,进行数据的预处理(数据预处理过程中可以根据现有变量构造新变量进行分析),预处理之后选择合适变量进行分析,分析算法自行选择,写出分析思路和过程,通过数据分析对客户进行细分,将客户分为 5 类。并为移动公司提供客户精准营销的相关建议。(请写出分析的流程并刻画最后细分之后的客户的特点和相应的营销建议)答案解析:根据题意解读本题可以选用聚类方式对客户进行类别划分,此处采用Kmeans 聚类进行模型假设。1、对数据进行预处理,数据均为数值型,此项不用处理;检验数据可知没有缺失值,故此项不用处理;将数据导入 datehoop 平台进行异常值处理可以看到虽然异常值较多但考虑到可能是特殊人群,故此项不做处理

3、。聚类对变量相关性影响较为敏感,因此将数据通过 datehoop 平台进行相关性分析结果如下:从相关矩阵可以看出 Peak_mins 和 Total_mins 相关性显著。此处利用比值法构建新的变量 peak_mins/total_mins,因为变量之间取值范围差异较大,因此进行聚类时需要进行标准化(datehoop 平台可以自动标准化,此处不单独处理)。2、对变量进行聚类,选择变量peak_mins/total_mins,offpeak_mins,weekend_mins,international_mins,total_mins,average_mins;根据题目要求,聚类个数选择 5,聚

4、类结果如下:平均轮廓系数为 0.2485,虽然轮廓系数并没有接近 1,但也是合理的。在实际聚类过程中并不是每次聚类都会达到较高的轮廓系数,轮廓系数不高说明类之间区分性不是特别明显,但并不代表类之间没有区分3、针对聚类结果分析每一类客户在现有变量上的特征,这里选取平均值作为参考依据,每一类针对每一个变量的类中心点如下:0 类:工作日通话时长、国际通话时长、总通话时长都最长,周末通话时长也较长,可以定义为高端商务客户;1 类:平均每次通话时长最长,其他通话时长处于中等水平,可以定义为长聊客户;2 类:所有通话时长都最低,命名为不常使用客户;3 类:下班班时间通话时长最长,总通话时长和上班时间通话时

5、长较长,可以命名为中端日常客户;4 类:周末通话时长最长,上班时间通话时长仅次于高端商务客户,国际通话时长和总通话时长都较长,可以命名为中端商务客户;4、根据以上客户细分的结果和特征分析,移动产品开发部门有针对性的开发设计套餐品类,满足不同类型客户的实际需求,增加客户黏性,提高客户满意度,最终提高客户的生命周期价值。针对不同的类别客户给出相应的营销建议。按照老师课堂讲解,可以发挥想象力针对每一类客户设置不同的营销策略,(1)对于 0 类高端商务客户,移动公司可以推出较为优惠的电话资费以保证客户可以长期使用。在保证国内通话时长的前提下,可以推出优惠的国际漫游资费。(2)对于 1 类长聊客户,移动

6、公司可以推出相应的畅聊套餐或者开设亲情号以吸引客户的眼光。(3)对于 4 类中端商务客户可以推出和高端商务客户相似的套餐,以吸引顾客的目光。(4)对于 2 类不常使用客户可以开设包月低价套餐,以增加客户使用率和客户粘性。2(50.0 分)通过游戏用户相关行为数据预测用户是否会付费某游戏公司,根据收集的 2016 年上半年的用户行为数据对用户是否会付费进行预测,根据预测结果对可能付费用户进行精准营销。该公司一共收集了用户的编号,以及用户的注册时间和最后一次登录时间,以及用户退出时的等级还有用户是否付费等数据。user_idinstall_datelast_login_datelevel_endo

7、sis_payeractive_daysavg_session_cnt用户编号游戏安装时间最后一次登录游戏时间用户退出时的游戏等级登录手机系统是否付费活跃天数每天登录频次数据及数据类型解释user_idinstall_datelast_login_datelevel_end osis_payeractive_daysavg_session_cnt字符型日期型如:2015/5/4日期型 数值型字符型,取值为:Android和iOS是否付费1 代表付费,0 代表未付费数值型 数值型游戏训练数据.xlsx游 戏 数 据 训 练 集游戏测试数据.xlsx游 戏 数 据 测 试 集游戏预测数据.xlsx

8、请根据原始数据,对数据进行预处理(包括对类别型变量进行数值化处理、重新构造新的变量),然后根据原始数据,自行选择变量和分析算法进行分析(数据提供包含训练数据、测试数据、预测数据、其中测试数据的模型检验结果的计算提供了相应的 excel 表格,表名为:测试数据结果计算,只需把测试结果拷贝到第二类数下面,相应的指标即可计算出来),写出分析过程和思路,并且根据模型进行预测。答案:1、由题意可知本题是分析用户是否会付费这一问题,可以考虑用逻辑回归建立模型进行预测。本题中 level_end、 os、 active_days、avg_session_cnt、duration、为自变量,i is_paye

9、r 为因变量2、对数据进行预处理,因为登录手机系统 OS 为字符型数据,故进行数值化编码如下:os os 编码Android 1iOS 2经检验数据可知无缺失值,故此项不用处理;数据样本均衡,符合建模要求;异常值分析:将所有变量导入 datahoop 平台进行异常值分析,由箱型图可知虽然存在异常数据,但是考虑到可能是分类所致,故此项不做处理。逻辑回归对多种共线性敏感,因此需要进行共线性分析,将所有变量导入datahoop 平台进行相关系数分析,得到相关系数矩阵如下:相关系数矩阵 level_endos 数值化active_daysavg_session_cntdurationis_payerl

10、evel_end 1 0.0835 0.8886 0.7053 0.7279 0.6825os 数值化 0.0835 1 0.0628 0.0044 0.0684 0.1237active_days 0.8886 0.0628 1 0.5281 0.7672 0.5323avg_session_cnt0.7053 0.0044 0.5281 1 0.3806 0.5184duration 0.7279 0.0684 0.7672 0.3806 1 0.4497is_payer 0.6825 0.1237 0.5323 0.5184 0.4497 1由矩阵可以看出变量之间虽然具有相关性,但是相关

11、性不强,可以进行逻辑回归分析。3、设定自变量 level_end、 os、active_days、avg_session_cnt、duration 分别为 x1,x 2,x 3,x 4,x 5,因变量is_payer 为 y,假设回归方程 ln =a1x1+a2x2+a3x3+a4x4+a5x5+b( )1( )将训练集和测试集的数据分别导入 datahoop 平台,选择相应的自变量和因变量,进行逻辑回归分析(迭代次数 1000 次)模型结果及检验情况如下:Accuracy 和 AUC 值,准确率和召回率都比较高,模型拟合效果较好,训练误差不大。回归方程为 ln =0.1207x1+0.537

12、5x2-0.0009x3+0.117x4-0.0016x5-( )1( )3.6267将测试结果和原测试集中的实际分类进行对比,得到如下混淆矩阵和计算出相应的准确率召回率,结果如下:由混淆矩阵可知 Accuracy 和准确率召回率都比较大,模型预测效果较好,泛化误差不大。可以用该模型进行预测。平台答案解析答案解析:提示:根据题目可以选取聚类方法对客户进行细分,这里选取 k-means 聚类方法进行分析。k-means 聚类要求,纳入的聚类变量一般为数值型变量,而且聚类变量之间不应该有较强的线性相关关系,如果变量间存在较高的线性关系且能够相互替代,那么计算距离时,这些变量会对距离重复贡献,一定程

13、度上影响到聚类结果。对数据进行预处理,数据无缺失值,异常值分析显示异常值较多,结合实际情况认为有可能是特殊人群,所以在此不作处理。通过查看相关系数矩阵看到 peak_mins 和 total_mins 相关性很高,所以只选取其中一个,然后构造一个新的变量 peak_mins/total_mins,由于新构造的变量取值与其他变量取值范围相差较大,因此,在聚类分析时,选择标准化处理之后的数据进行聚类(datahoop 可以在分析时默认进行标准化处理);对数据进行聚类分析,选取变量为:peak_mins/total_mins,offpeak_mins,weekend_mins,internation

14、al_mins,total_mins,average_mins,聚类个数为 5。平均轮廓系数为 0.246 左右,虽然轮廓系数并没有接近 1,但也是合理的。在实际聚类过程中并不是每次聚类都会达到较高的轮廓系数,轮廓系数不高说明类之间区分性不是特别明显,但并不代表类之间没有区分。根据聚类结果分析每一类客户在现有变量上的特征,这里选取平均值作为参考依据。对类进行特征分析:1 类:总通话时间(Total_mins)最长,上班通话通话时间(Peak_mins)最长,国际通话(International_mins)最长,命名为高端商用客户;0 类:下班通话时间(OffPeak_mins)最长,周末通话时

15、间(Weekend_mins)最长,上班和国际通话时间居中,命名为中端日常客户;2 类:上班通话通话时间(Peak_mins) 和国际通话(International_mins)仅次于第 1 类,周末通话时间(Weekend_mins)居中,总通话时间(Total_mins)较长,命名为中端商用客户;4 类:平均每次通话(average_mins)时长最长,命名为长聊客户;3 类:各项通话时间均很低,命名不常使用客户。综上,根据以上客户细分的结果和特征分析,移动产品开发部门有针对性的开发设计套餐品类,满足不同类型客户的实际需求。比如:高端用户推荐各项指标偏高,套餐费用也偏高的套餐;中端用户和中

16、高端用户可以较高端用户偏低一点进行套餐推荐,常聊用户可以推荐符合常聊特点的套餐,比如通话次数优惠类套餐,低端用户可以推荐资费便宜的套餐。从而增加客户黏性,提高客户满意度,最终提高客户的生命周期价值。答案解析:分析不同特点的用户是否会付费,属于分类问题,这里选取逻辑回归算法来进行分析。逻辑回归算法需要考虑是否存在异常值和共线性,因此进行异常值分析和相关系数矩阵分析。由分析结果可以看出异常值所占比例太多,可能是分类的某种趋势导致,因此不做处理。自变量之间存在相关性,但不是特别强,所以可以直接进行逻辑回归分析。以 is_payer 为因变量,level_end、os、active_days、avg_session_cnt和 duration 为自变量进行逻辑回归分析。写出逻辑回归方程和各个指标,说明训练误差不大。接下来用测试数据进行检验,说明泛化误差不大,因此可以用来预测。最后预测分析。

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。