1、1“拍照赚钱”的任务定价摘要小四宋体关键词:支持向量机 主成分分析1.问题重述“拍照赚钱”是用户下载 APP,注册成为 APP 的会员,然后从 APP 上领取需要拍照的任务,赚取 APP 对任务所标定的酬金的过程。APP 成为该平台运行的核心,而 APP 中的任务定价又是其核心因素。如果定价不合理,有的任务就会无人问津,而导致商品检查的失败。本题给出附件一:已结束项目的任务数据;附件二:会员信息数据:附件三:新项目任务数据(只有任务的位置信息)。1. 研究附件 1 中的项目,任务定价规律,分析任务的未完成原因。2. 为附件 1 中的项目设计新的任务定价方案,和原方案进行比较。3. 实际情况时,
2、多个任务可能因为位置较为集中,导致用户会争相选择,一种考虑是将这些任务联合在一起打包发布。在这种考虑下,如何修改前面的定价模型,对最终任务完成的情况有什么影响?4. 对附件三中的新项目给出自己的任务定价方案,并评价该方案的实施效果。22. 基本假设1)2)3)4)5)3. 符号说明序号 符号 符号说明1 X1 维度2 X2 经度3 X3 任务标价4 X4 任务完成情况5 Q1 原方案成本6 Q2 新方案成本789104问题(1)的模型建立、求解34.1 问题分析对于问题一,我们主要研究了附件一中的四项数据(任务 gps 维度、任务 gps 经度、任务标价、任务执行情况)。通过初步观察任务的 g
3、ps 经纬度都和任务标价、任务执行情况相关,为了进行详细分析,我们采用了主成分回归分析法。4.2 模型准备主成分分析的目的主要是用较少的变量转化成彼此相互独立或不相关的变量,通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。主成分分析的结果受量纲的影响,如果改变量纲,则会由于各变量的单位可能不同而导致结果不一样,而回归分析是不存在这样的情况的,所以可以先把各变量的数据标准化,使用相关系数矩阵进行分析。我们使用主成分回归分析,是为了克服最小二乘(LS)估计在数据矩阵中存在多重共线性时表现出的不稳定
4、性。我们选择其中一部分重要的主成分作为新的自变量,丢弃了一部分影想不大的自变量,实际上达到了降维的目的,然后用最小二乘法对选取主成分后的模型参数进行估计,最后再变成原来的模型求出参数的估计。4.3 模型建立与求解4.3.1:数据的初步处理由于附件一所给数据量纲不同,且数值差过大,我们对该数据进行了统一处理,处理如下(下表只显示部分处理数据,详细请看支撑材料):表 1 附件一部分数据任务号码任务 gps 纬度 任务 gps 经度 任务标价 任务执行情况A0001 22.56614 113.9808 66 0A0002 22.68621 113.9405 65.5 0A0003 22.57651
5、113.9572 65.5 14A0004 22.56484 114.2446 75 0A0005 22.55889 113.9507 65.5 0A0006 22.559 114.2413 75 0使用 Excel 求得任务经纬度和任务标价平均值后,分别除以所有该项目数据,得到如下(部分)结果:表二 附件一处理后数据任务号码 任务 gps 纬度 任务 gps 经度 任务标价 任务执行情况A0001 0.981881996 1.003904761 0.954989604 0A0002 0.987106093 1.00354971 0.947754834 0A0003 0.98233319 1.
6、003696558 0.947754834 1A0004 0.981825369 1.006227644 1.085215459 0A0005 0.981566343 1.003639526 0.947754834 0A0006 0.981571187 1.006198986 1.085215459 0平均值 22.98254238 119.5375385 69.1107784.3.2 主成分分析回归模型4.3.2.1 完成情况(X4)分析首先我们利用 Matlab 软件求出任务 gps 维度 X1,任务 gps 经度 X2,任务标价X3 的相关系数矩阵 r 和矩阵的特征值那么大,特征向量 n
7、,特征值贡献率表 3 X1,X2,X3 相关系数矩阵X1 X2 X3X1 1.0000 -0.5206 0.0855X2 -0.5206 1.0000 -0.0597X3 0.0855 -0.0597 1.0000相关系数矩阵的三个特征值依次为 nameda1.54010.9811 0.4787特征向量0.6969,-0.6924,0.1868-0.1069,0.1573,0.98170.7091,0.7042,-0.0357 5各个特征值的贡献率 51.3376 32.7044 15.9581前两个特征值的和所占比例(累积贡献率)达到:51.3376+32.7044,由此略去第三个成分。保留
8、前两个成分(特征值)对应的两个特征方程为:Z1=x1+x2+x3Z2=x1+x2+x3对附件 1 处理后的数据直接做线性回归得经验回归方程得:y=-20.056232+10.673738*x1+8.624116*x2+1.383294*x3作主成分回归分析,得到回归方程Y=【0.1580,0.1672】【z1,z2】化成标准化变量的回归方程为Y=0.0922 -0.0831 0.1936 x1 x2 x3恢复到原始的自变量,得到主成分回归方程:y=7.246556+4.192986*x1-12.250940*x2+1.436457*x3由上可得,任务完成情况的好坏与维度和任务标价成正比关系,与
9、经度成反比关系,且经纬度 x1,x2 前的系数明显大于定价 x3 前的系数,由此,经度越高,维度越低的任务完成情况越好,定价将略微影响任务的完成情况,定价越高完成情况越好4.3.2.2 任务标价(X3)分析与完成情况分析相仿求出相关系数矩阵 r 与矩阵的特征值那么大表 4 X1,X2,X4 相关系数矩阵 rX1 X2 X4X1 1.0000 -0.5206 0.2202X2 -0.5206 1.0000 -0.0749X4 0.2202 -0.0749 1.0000特征值 1.5950 0.9467 0.4583特征向量0.6876 -0.6439 0.3356 -0.0935 0.3798
10、0.920360.7200 0.6642 -0.2009 各个特征值的贡献率 53.1660 31.5577 15.2763前两个特征值的和所占比例(累积贡献率)达到:53.1660+31.5577,由此略去第三个成分。保留前两个成分(特征值)对应的两个特征方程为:Z1=x1+x2+x3Z2=x1+x2+x3对附件 1 处理后的数据直接做线性回归得经验回归方程y=1.449027+0.160356*x1-0.625815*x2+0.026279*x3作主成分回归分析,得到回归方程Y=0.1037 0.1650 z1 z2化成标准化变量的回归方程为Y=0.0559 -0.0041 0.1867
11、x1 x2 x3恢复到原始的自变量,得到主成分回归方程y=0.723047+0.342375*x1-0.081159*x2+0.025162*x3 由上可得,任务的定价与维度和任务标价成正比关系,与经度成反比关系,且经纬度 x1,x2 前的系数明显大于任务的完成情况 x4 前的系数,由此,经度越高,维度越低的任务定价越高,任务的完成情况略微影响任务定价。4.3.2.3 模型的初步检验由以上两个主成分回归分析方程可得 ,高定价的情况下,任务的完成情况较好。我们做出任务完成和任务未完成的标价与地理位置(任务 gps 经纬度)散点图:7图 3 标价与地理位置散点图(任务完成)图 4 标价与地理位置散
12、点图(任务未完成)其中在高标价段,任务完成的个数明显较未完成的个数多,由此可见主成分回归方程可信度较高。由上可得任务定价规律:在经度高,的地区,定价较高;在经度低,维度高的地8区,定价较低。未完成的原因:与定价规律相似,在经度高,维度低的地区,完成度较高;在经度低,维度高的地区,完成度较低。结合定价规律可得,未完成的原因是由于在该地区的定价稍微偏低引起的。 5. 问题(2)的模型建立、求解5.1 问题分析与求解为附件一中的项目设计新的任务定价方案,并和原方案进行比较。由第一问可得任务定价与任务完成情况之间关系不大,但两者都与任务的经纬度有关(也就是与任务的地理位置有关) ,当任务地理位置的纬度
13、高经度低时,任务的完成度和任务的定价都较高,这种安排很不合理。由此我们得出新的任务定价方案,在纬度高经度低时(任务完成度情况好) ,降低定价;在纬度底经度高时(任务完情况不好) ,提高定价。该方案的与原方案比较(1) 完成情况不好的地方通过提高定价,刺激该地区人群尽力完成任务(2 ) 完成情况好的地方通过降低定价,舒缓该地区的竞争。(3 ) 通过降低完成情况较好的地方的任务定价,可同时降低公司总的支出金额(需要付给用户的总金额)如下计算原方案和新方案公司的支出金额:方案的总支出金额=任务定价 *任务完成情况(详细计算可见支撑材料fujian1.xls)原方案 Q1=seigemax3*x4=3
14、6446新方案:我们将维度大于平均值,经度小于平均值的地区任务提高 5 元,把维度小于平均值,经度大于平均值的地区任务定价降低 5 元,而后计算支出总金额Q2= (11)7298.5+(10)5943+(00)5173.5+(01)10631=29046Q2Q1由此可见通过这种不同地区升降价的方案,可以在提高任务完成率的情况下,又降低了公司的成本96. 问题(3)的模型建立、求解6.1 问题分析在实际中多个任务可能会因为位置集中而使用户争相选择,给出一种考虑将任务打包发布。在这种考虑下修改前面的定价模型,并分析出其对任务完成情况的影响对此类实际性的问题,通常的数据分析不能够很好的解释其中的影响
15、,为此我们对这一问题进行了 Matlab 任务发布模拟,由此先计算出任务的完成度。6.2 任务发布模拟模型6.2.1 模型准备首先我们对一些实际情况进行假设不打包的情况下:(1) 任务发布的时间随机(6:30-8:30 随机发布)(2) 预定时间早于任务发布时间的,那些会员都有机会抢得任务,其他会员不得选择任务(3) 会员抢得的任务几率与配额数相关(4) 会员完成情况(成功概率)与信誉度有关打包的情况下:(1) 任务发布的时间随机(6:30-8.30 随机发布)(2) 预定时间早于任务发布时间的,那些会员都有机会抢得任务,10其他会员不得选择任务(3) 打包任务仅发给预定限额(或信誉)较高的会员一人(4) 会员完成情况(成功概率)与信誉度有关6.2.2 模拟模型的建立与求解为了精确模拟中的参数我们将经纬度等分化为 100000 个区域每个区域的经纬度范围在【.0.0.0.0】之内。通过 Matlab 求出任务密度分布和会员密度分布如下图图 5 任务密度分布