1、基于通径分析法对酿酒葡萄指标与葡萄酒质量相关性的研究摘要 本文主要研究酿酒葡萄与葡萄酒质量的理化指标之间的相关性。首先将数据进行归一化处理,再运用逐步回归法,提取出酿酒葡萄与葡萄酒中较为关键的几项理化指标,然后采用通径分析法,对各项理化指标之间的直接影响与间接影响进行详细的讨论。结论表明,酿酒葡萄指标与葡萄酒质量具有相关性,且不同的酿酒葡萄指标之间亦会相互影响,因此,在酿造工业中对各项指标应予以全面的考虑。 关键词:通径分析 SPSS 多元线性回归 葡萄酒 理化指标 中图分类号:TS262.6 文献标识码: A 文章编号: 1 题目的背景与意义 在实际生活的问题中,常常需要研究多个相关变量并分
2、析变量之间的线性关系。用于此类分析的方法繁多,其中较为常用的便是多元线性回归分析、偏相关分析与通径分析。本文旨在研究,运用通径分析法分析酿酒葡萄与葡萄酒质量理化指标之间的相关性。酿酒葡萄,是指以酿造葡萄酒为主要生产目的的葡萄品种,大致可分为红色品种与白色品种。而葡萄酒的风格与品质会因为酿酒葡萄的不同而产生差异。因此,分析酿酒葡萄与葡萄酒的理化指标之间的联系,并得出多个相关变量的线性关系,对于葡萄酒酿造工业的改进,显得意义重大。 2 数据背景 数据来自 2012 年全国大学生数学建模竞赛 A 题。 3 基本假设 1)假设题目所给数据具有随机性与代表性; 2)假设评酒员提供的数据具有客观性。 4
3、通径分析酿酒葡萄与葡萄酒理化指标的相关性 4.1 方法介绍 通径分析法是由数量遗传学家 Swall Wright 于 1921 年首先提出,经过遗传育种学者不断改进和完善形成的一种多元统计技术。作为相关分析的继续,通径分析法通过将简单相关系数分解为多个部分,以显示某一变量对因变量的直接作用效果和间接作用效果,其实质上是标准化变量的多元线性回归分析。其中,通径系数既是自变量与因变量之间带有方向性的相关性系数,又是变量标准化的不带单位的偏回归系数1。 4.2 原理及解释 由于酿酒葡萄与葡萄酒理化指标的单位不统一、数值差异较大,这样大的差异容易导致计算复杂,计算结果不精确。为避免以上情况的发生,将数
4、据进行归一化,归一处理后的数据属性值在(0,1)之间。再者,由于酿酒葡萄与葡萄酒理化指标种类繁多,导致其数据的相关性不显著,不利于运用通径分析法分析它们之间的直接与间接联系。在此,运用逐步回归法考虑自变量对因变量的影响程度,保留对葡萄酒理化指标相关性较大的指标作为分析样本。 结合 27 种不同品种的红葡萄酒的酿酒葡萄数据,通过最小二乘法建立回归方程: 这里依次为因变量 Y 对自变量的标准偏回归系数,同时也表示自变量对因变量的直接影响,因此在通径算法中被称为直接通径系数,记作;而自变量通过其余变量对因变量 Y 的间接影响,记作。于是有: 针对此多元回归模型,建立通径分析基本模型2: 本文选取葡萄
5、酒中的白藜芦醇指标作为因变量 Y,选取酿酒葡萄中的氨基酸总量、蛋白质、葡萄总黄酮与可溶性固形物作为自变量。 4.3 数据与结论 根据附件中所给出的各理化指标值,提取分析成分样本,将酿酒葡萄的四个理化指标与葡萄酒的白藜芦醇指标进行通径分析。 以氨基酸总量、蛋白质、葡萄总黄酮和可溶性固形物为自变量,白藜芦醇为因变量 Y,利用 SPSS 进行回归分析,求得白藜芦醇和氨基酸总量、蛋白质、葡萄总黄酮、可溶性固形物的相关系数分别为0.4,0.006,0.617,0.071。由此可知,酿酒葡萄中的氨基酸总量与葡萄总黄酮指标与葡萄酒的白藜芦醇指标相关程度较高,说明酿酒葡萄中这四类因素的指标大小对于葡萄酒的白藜
6、芦醇含量有较为关键的影响。同时,酿酒葡萄中的蛋白质与可溶性固形物含量与葡萄酒的白藜芦醇相关性较小。但是,由于酿酒葡萄的各项理化指标之间可能存在复杂的相互影响关系,譬如说在葡萄酒的酿造过程中同时发生多个化学反应,将直接影响酿酒葡萄的理化指标与葡萄酒白藜芦醇之间的相关系数。因此,本文将采用通径系数法进行进一步的探讨。运用 SPSS 进行运算,得出结果如下图 1:; 图 1 SPSS 运算结果 图 1 显示的结果为 SPSS 运算后得出的偏回归系数、标准误差、标准回归系数,由此可得出线性回归方程为: 根据检验结果,截距与 0 之间差异显著;自变量的偏回归系数均显著。因此,该回归方程成立。葡萄酒的白藜
7、芦醇 Y 关于酿酒葡萄的理化指标的通径系数通过计算可以得出,计算方法为:通径系数=自变量的回归系数 X(自变量的标准差/因变量的标准差) 。变量间的相关系数如表 1所示; 表 1 变量间的相关系数 回归方程中的任意自变量除了对因变量产生直接作用,还可以通过其他自变量对因变量产生间接影响。某一自变量通过另一自变量间接作用于因变量的间接通径系数,等于另一自变量的直接通径系数乘以两个自变量之间的相关系数3。利用上述数据,其计算结果如表 2 所示; 表 2 不同变量间的通径系数 表 2 中,添加*标记为直接通径系数,其余为间接通径系数。根据表中所给的数据,结合通径分析理论,本文对酿酒葡萄指标与葡萄酒质
8、量相关性的研究得出以下结论。酿酒葡萄的葡萄总黄酮含量大小对葡萄酒的白藜芦醇影响最大,其次为氨基酸总量。虽然酿酒葡萄中的可溶性固形物与蛋白质的指标对葡萄酒的质量直接影响不显著,但是此两类指标通过其它指标间接影响葡萄酒白藜芦醇的含量大小,因此也是不可忽略的。 5 优缺点分析 本文采用通径分析法,针对问题讨论了酿酒葡萄理化指标与葡萄酒质量的相关性,此方法不仅能说明影响葡萄酒质量的原因,而且准确地估测出各形态因子对因变量的相对重要性。但所考虑的因素仍然具有局限性,影响了结果的客观性。 6 结论 在葡萄酒酿造工业中,所采用酿酒葡萄的各项理化指标不同,皆对葡萄酒质量产生了难以估测的影响。各项指标除了对葡萄酒质量产生了直接的影响,但与其他指标之间亦有相互影响,从而产生对葡萄酒质量的间接影响。因此,为了完善与提升葡萄酒酿造工艺,我们需要多方面考虑各个因素所引起的反应,从而达到稳定地生产品质优良的葡萄酒的目的。 参考文献 1董占奎,查建平,陈中伟.基于通径分析法的农民农业收入增长影响因素研究.中国集体经济.2008 年 21 期. 2敬艳辉.通径分析及其应用J.统计教育.2006,(2):24-26. 3任红松,吕新,曹连莆,袁继勇.通径分析的 SAS 实现方法.计算机与农业.2003 年 04 期.