1、1市场调查中样本数据缺失值问题研究摘 要:本文在对缺失值的基本概念、产生原因、主要处理方法进行简单介绍的基础上,提出了针对顾客满意度测评的拓展模型以及缺失值的分类均值插补处理方法,相对于以往的均值插补法,该方法的有效性得到了进一步提升。为了验证模型的效度、信度、适合度,以某公司为对象进行实证研究,对文章提出的顾客满意度测评拓展模型进行评价分析,最终取得了满意且有效的测评结果。 关键词:市场调查;样本数据缺失;缺失值 一、引言 所谓缺失值就是指在研究分析中的数据统计方式,传统的获取方式是通过抽样,但在实际操作时因为各种主客观因素的影响而未能获取相应调查数据,也常被成为缺失数据。根据以往的理论研究
2、成果和实践经验,市场调查中样本数据缺失是比较普遍的一种现象,究其原因,主要有以下几个方面:(1)受调查对象出于个人的主观意愿对调查者希望从自己这里获取所需数据的行为持否定态度。 (2)因各种不可控的因素而导致调查数据缺失。 (3)受调查系统不完善、调查人员操作失误等因素的影响,未能实现对所需数据的全面搜集。 (4)在对调查数据进行汇总处理时出现错误或失误而引起的数据缺失。不过,以上四种原因仅为导致数据缺失问题的主要原因,在实际工作中,缺失数据的产生原因种类繁多,很难对缺失数据的产生方式与机制进行准确的判断和检测,为了2使针对缺失数据的研究能够顺利开展,专家和学者们从形式上将其划分为项目缺失、单
3、元缺失两种类型。Rubin、Little 在对数据缺失机制进行定义时将其划分为以下三种类型:不可忽略的缺失、随机缺失、完全随机缺失。在推估过程中,缺失数据主要有单调、单变量、任意缺失三种表现形式。就目前的实际情况来看,删除法、插补法以及最大似然估计法是缺失数值问题处理工作中最常用的三种方法,而缺失值的补法主要包括多重插补法、随机插补法和均值插补法等,MCMC 算法、EM 算法、相似反映模式算法、最大似然估计法、回归或主成分法也是处理缺失值的常用方法。本次研究针对市场调查中的顾客满意度调查,提出一种新的缺失值处理方法分类均值插补法,以此实现解决市场调查中样本数据缺失值问题的最终目标。 二、构建顾
4、客满意度指数测评拓展模型 本次研究所构建的顾客满意度指数测评拓展模型共涉及潜变量 7 个,分别为消费者满意度、抱怨、质量期望、忠诚以及感知质量、价值期望和品牌期望。外生变量仅有品牌期望 1 个,其余均为内生变量。模型路径如图所示。 三、求解带缺失值的顾客满意度指数 1.处理异常值 这里所说的异常值,是指受调查者不远回答问卷调查中的相关问题或回答结果超出数值范围时所采用的默认值,调查问卷采用 10 分制,受调查者通过给分方式表达自己对相关项目的满意或认可程度。98 名受调查者表示自己不了解相关信息, 99 名受调查者不愿作答,101 名受调查3者表示从不购买,以上回答均以缺失值进行处理。标准化处
5、理后,样本值的方差、均值分别为 1、0。 2.处理缺失值 首先,用 0 代替数据库中标记为 NaN 的缺失值,若潜变量对应的显变量的样本值完全缺失,则认为该样本无效,采用成对删除法进行处理;若潜变量对应的显变量的样本值仅有部分缺失,采用“分类均值插补法”进行处理。 “分类均值插补法”的操作流程可以简单的概括为:依 110分分值将满意度字段划分为 10 个类别,若某一类别中存在缺失值,则以该类别的缺失值均值插补。 “分类均值插补法”是由均值插补法发展而来,二者在均方根误差方面的比较结果见表 1。 3.潜变量估计值的获取 潜变量估计值通过 PLS 算法反复迭代获取,需要注意的一点是,若块结构含有多
6、个潜变量结构方程模型,那么在设定过程中应假定各指标及其对应的潜变量之间为线性关系;在对模型的内部关系进行设定时,应坚持不同关系共同构成一个线性因果链系统的原则。 步骤一:对潜变量、权重进行迭代估计,同时估计定位系数。 步骤二:重复执行,直至满足迭代条件。 四、顾客满意度测评拓展模型的实证分析 1.顾客满意度测评拓展模型的应用及评价。模型的实证分析涉及显变量 17 个、潜变量 7 个(06,分别对应消费者期望、质量期望值、价值期望值、消费者满意度、消费者抱怨、消费者忠诚以及企业形象) 。调查工作以网上发放调查问卷的形式开展,共涉及 225 名受调查者(即4样本量为 225) 。X52 代表价格敏
7、感度,包括价格上下浮动的不同趋势,取值定义为价格上下浮动 25%。用符号 NaN 替换表中的 98、99、101,代表缺失数据。对原始数据进行标准化处理,设定权重迭代条件初始值,计算消费者对商品质量和价值的满意度指数值。模型合理性评价于 PLS路径模型相关参数得出后进行。 通过测量、结构模型获悉模型的科学可靠性,测量评价包括信度、效度两个方面,结构评价则以分析路径系数为主。分别对七组变量进行主成分分析,分析数据表明,第一主成分特征值1,第二主成分特征值0.7,各组变量单一纬度均满足要求。测评标准化因子 0.590.90,所涉及概念 AVE 值 0.810.99,均满足“0.5”的要求,证明所设
8、计量表的内敛效度良好。不同解释潜变量及所对应的潜变量 R2 值均0,说明模型具备所需解释能力。模型拟合优度 GoF=0.7,说明模型拟合效果满足要求。依据迭代过程中权重系数 的计算结果,可以归纳出以下结论:(1)在权重初始值不完全为 0 的情况下,最终迭代结果不会受到影响;(2)若调查样本、迭代中止条件相同,则权重分析结果不会因初始权重 值的差异而受到影响。 (3)迭代过程是收敛的,虽然权重初值的差异会对迭代次数以及迭代过程中的权重值产生影响,但并不会导致迭代结果发生改变的问题。 基于 Java 设计开发的 SmartPLS 软件包括路径、因子、质子三种权重模式,在相同样本的处理过程中,Sma
9、rtPLS 软件至收敛分别需要13、13、9 次迭代,本文所采用的方法仅需 5 次迭代即可达到同样的效果。5由这一结果我们可以看出,本次研究所采用的处理方式能够使模型分析、处理速度较以往有较大幅度的提升,在测量模型系数、结构模型系数、权重系数等方面则与 SmartPLS 软件一致。 2.测评结果。经计算和分析后获取各潜变量间标准化路径系数,所得部分结果如表 2 所示。 根据以上实证分析以及对各参数的评价结果,我们对该公司的网上满意度调查结果进行如下归纳: (1)感知质量和价值、顾客期望、企业形象这 4 个潜变量与顾客满意度之间存在明显的正比关系,排名前三的依次为感知质量、感知价值、企业形象,分
10、别为 0.6171、0.2997 和 0.2183。由此可以看出,想要使客户对公司产品的满意度得到进一步的提升,最为关键的一点是保证产品质量,合理控制产品价格也将为顾客满意度的提升做出一定贡献。 (2)顾客忠诚度受顾客满意度的直接、间接影响 53、4354分别为 0.6888、0.07132,证明顾客满意度对于顾客忠诚的直接影响较强,而对顾客忠诚的间接影响相对较弱。 五、结语 本文在对数据缺失的基本概念、产生原因、主要处理方式进行了简单的说明和介绍,在帮助读者了解数据缺失值问题相关情况的基础上提出针对顾客满意度指数测评拓展模型,该模型细化了感知质量潜变量,将其分为感知服务、产品质量两种类型,使
11、同时提供产品和服务的现代企业在市场调查的过程中能够对带有缺失值的顾客满意度指数进行更加方便的处理,使测评工作的开展更加简洁、高效。为了使这一目标得到6更好的实现,文章基于均值插补法提出了“分类均值插补法”并将其应用于缺失值问题的处理过程中,相对而言,新方法的有效性得到了进一步提升。为了验证模型的效度、信度、适合度,以某公司为对象进行实证研究,对文章提出的顾客满意度测评拓展模型进行评价分析,最终取得了满意且有效的测评结果。 参考文献: 1鲁纯.灰色建模中数据缺失值处理方法探讨J.辽宁省交通高等专科学校学报,2013,15(2):18-22. 2帅平,李晓松,等.缺失数据统计处理方法的研究进展J.中国卫生统计,2013, (1):135-139. 3王曼,施念.成组删除法和多重填补法对随机缺失的二分类变量资料处理效果的比较J.郑州大学学报:医学版,2012,47(5):642-645.