1、一、 计算题(题数:4,共 100.0 分)1.影响中国人口自然增长率的因素有很多,据分析主要因素可能有:( 1)从宏观经济上看, 经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变 人的传统观念,可能会 间接影响人口自然增 长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。为了全面反映中国“人口自然增长率”的全貌, 选择人口增长率作为被解释变量,以反映中国人口的增 长;选择“ 国名收入”及“人均 GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂
2、不考虑文化程度及人口分布的影响。从中国统计年鉴收集到以下数据(见表 1):设定的线性回归模型为:算法 1 多元线性回归.xlsx(1)求出模型中的各个参数,试 从多个角度评价此线性回归 模型,并 检验模型的经济意义;(2)检验模型中是否存在多重共线性问题(逐步回归),若有,试消除多重共线性。答案解析:(1)直接进行线性回归即可得到各个参数(用 excel)。多元线性回归模型评价可以从拟合优度、T 检验、F 检验 等多个方面出 发。(2)求变量的相关系数矩阵或采用逐步回归法(也可以用 datahoop 平台做线性回归,会自动删除共线的变量)。2.对近期上映的 10 部电影进行调查研究,抽取 29
3、0 人对这 10 部电影的评分(分值 010 分),结果如下表所示。(1)根据表中数据对这 10 部电影的评分进行因子分析,并解析各个因子的含 义;(2)可否利用电影的评分数据对这 290 名观影者进行聚类分析?给出你的理由。算法 2 因子分析.xlsx答案解析:(1)因子分析选择隐含因子数为 3,分 别代表动作片、 爱情片、动画片的影响评分因子。(2)可以,这 290 人对电影的偏好有区 别,可以 进行聚类,相关性分析后排除共线性的影响再进行聚类。3.某超市为了优化商品摆放结构, 对近期顾客购买的商品 类型进行了统计,如附表所示。(1)写出所有有效强关联规则(minsupport=10% ,
4、minconfidence=50%);(2)结合实际情况分析顾客喜欢的商品搭配,并 对该超市提出合理的建 议。算法 3 关联分析.xlsx答案解析:关联规则分析中设置参数(minsupport=10% ,minconfidence=50%),结果中强关联规则通过调整显示条目全部写出(重复的删除)。 结合实际情况分析要写 详细。4.某市为调查驾驶员视力情况(“1”表示视力正常, “0”表示有视力缺陷)、年 龄、是否有驾驶教育经历(“1”表示有, “0”表示没有),这三个因素对是否曾引起交通事故(“1” 表示发生过, “0”表示未发生过)的影响,随机抽样调查了 45 名驾驶员 ,得到数据如下:(1
5、)建立模型分析驾驶员视力情况、年 龄、是否有 驾驶教育 经历对是否曾引起交通事故的影响,写出详细的思路过程。(2)若要应用此模型预测某批驾驶员中可能会引起过交通事故的人都有哪些,则还需要进行的研究步骤有哪些?请说明。算法 4 逻辑回归.xlsx答案解析:逻辑回归,数据预处理包括分析共 线性和异常值等,数据分为训练数据和测试数据,综合训练误差和测试误差评价模型。第二 问要收集数据、 处理数据、应用模型直接预测。-一、 计算题(题数:4,共 100.0 分)1.1993-2007 年相关经济数据如附表所示。设定国内生产总值为 x1,地产投资总额为 x2,全国居民消费水平为 x3、全社会固定 资产投
6、资房屋竣工面积为 x4,作 为自变量;全国房屋销售均价设为 Y,作为因变量。建立如下的多元线性回归模型:y=b0+b1*x1+b2*x2+b3*x3+b4*x4+b0,b1,b2,b3,b4 是未知参数, 是剩余残差,且 E()=0,与四个自变量无关。(1)求出参数 b0,b1,b2,b3,b4,并 评判模型拟合优度和实际 意义,写出 详细的分析依据和思路过程;(2)根据(1)对模型进行修正。多元线性回归.xlsx答案解析:(1)直接做线性回归,可得各个参数。通过 R2,F、T 检验,p 值等分别分析模型。系数在经济意义上存在不合理性,可能是共 线性的影响。 (datahoop 平台会 删除共
7、线的变量,所以 这里用excel 或 spss 等做回归。 )(2)相关性分析和解释,去掉一些 变量,重新做 线性回归(在 Datahoop 平台上直接做也可以,平台会自动删除共线的变量)。2.为了解电影票房的影响因素有哪些,某出品人搜集了 2010 年至 2013 年间中国电影发放放映协会统计的过千万票房的国产电影相关统计指标,共涉及 275 部影片。具体数据如附表所示。Datahoop 上传测试集:电影票房数据(2010-2013).xlsxDatahoop 上传训练集:电影票房数据(2010-2013).xlsx对数据进行预处理(包括缺失值、数据 类型、离散化等),选择决策树模型进行拟合
8、,并检验和分析模型。要求写出详细的思路和 过程。答案解析:1.影片票房:影片票房是本次模型建模的因变量。通 过对选 取数据的统计分析,将票房数据进行分类,一共分为 8 个层次, ,分类情况如表所示:等级 1 2 3 4 5 6 7 8范围 1000 万 2000 万 3000 万 6000 万 1 亿万 1 亿 9000 万 3 亿 20 亿乘客 IDSurvived = 是否生还Pclass = 乘客等级(1/2/3 等舱位)Name = 乘客姓名Sex = 性别Age = 年龄SibSp = 堂兄弟 /妹个数Parch = 父母与小孩个数Ticket = 船票信息Fare = 票价Cabi
9、n = 客舱Embarked = 登船港口对收集进行预处理,选择适当的算法 进行分析,并 评价和解 释模型,要求写出具体的思路过程。答案解析:本次分析选取变量包括:Survived = 是否生还、 Pclass = 乘客等级(1/2/3 等舱位)、Sex = 性别、Age = 年龄、SibSp = 堂兄弟/妹个数、 Parch = 父母与小孩个数、Fare = 票价。理把性别进行 0 和 1 处理,female(女)转换成 0,male(男)转换成 1。年龄 Age 存在缺失值,因此对于年龄的缺失值需要进行处理,本次对年龄的缺失 值用所有年龄数据的平均值进 行填充。采用方法:逻辑回归,根据模型
10、的 预测结果可以看出模型的准确度 还是比较好的,模型的AUC 值也是比较高的。因此可以根据这些变量预测乘客生还与否。-一、 计算题1.电信公司为分析客户流失状况, 为客户是否流失提供参考依据,随机选取了 600 名客户进行研究,得到了如附表所示一系列数据,收集到的数据包含下列字段:在网月数截止数据收集时间为止的在网月数年龄客户实际年龄婚姻状况客户婚姻状况,0 代表未婚,1 代表已婚现地址居住时间现在地址的居住月份教育程度1:专科以下;2:本科;3:硕士;4:研究生;5:博士工作状态0:待业;1:在职性别0:女;1:男租设备0:不租;1:租IP 电话0:无;1:有无线电话0:有;1:无本月话费话
11、费具体金额语音信箱0:无;1:有网络0:无;1:有来电显示0:无;1:有呼叫等待0:无;1:有呼叫转移0:无;1:有流失状态0:未流失;1:流失根据这些客户数据,进行数据 预处理,之后分 别用逻辑回 归和 SVM 算法进行分析, 对比两种算法的拟合优度,从而选择 两者中更加适合的算法模型。写出分析思路和过程,并为电信公司提供客户运营的相关建议。数据分析应用 1 电信客户流失数据.xlsx答案解析:根据逻辑回归和 SVM 算法对数据的不同要求,预处理要分析数据的共线性和异常值,之后分别进行逻辑回归和 SVM 算法分析,发现 SVM 的召回率、准确率、准确度等指标均较好,因此选择 SVM 算法。相
12、关建议包括引入此模型分析客户,从而针对性运 营等。2.选取 7 项经济指标作为决定经济类型的影响因素, 对全国 31 个省、直 辖市、自治区( 浙江、湖南、甘肃除外)进行聚类分析(各项数据均来自 2010 年国家统计年鉴)。数据分析应用 2 省市分类.xlsx对数据进行预处理(创建新的变量等),比 较说明聚成几类时 聚类效果最好,写出分析思路和过程,并分析每一类的实际意 义。答案解析:若用 k-means 进行聚类,预处理要考虑共线性和异常值(数据比较少不能轻易删除异常值),且分别分析聚成 2、3、4 等类的效果(由平均轮廓系数判定)。-一、 计算题1.某金融机构为了研究其信用卡发放风险,收集整理了一些客户的数据,包括他 们的基本信息,经济情况,以及是否拖欠还款等,具体如附表所示(已经将客户分为了训练集和测试集)。数据分析应用 1 测试数据.xlsx数据分析应用 1 训练数据.xlsx进行数据预处理,并用不同的算法模型( 逻辑回归、神 经网 络等)分析信用卡拖欠还款情况,结合测试数据对比模型的拟合优度,要求写出具体的思路过程。