1、1葡萄酒质量的评价摘 要葡萄酒质量的好坏主要依赖于评酒员的感观评价,由于人为主观因素的影响,对于酒质量的评价总会存在随机差异,为此找到一种简单有效的客观方法来评酒,就显得尤为重要了。本文通过研究酿酒葡萄的好坏与所酿葡萄酒的质量的关系,以及葡萄酒和酿酒葡萄检测的理化指标的关系,以及葡萄酒理化指标与葡萄酒质量的关系,旨在通过客观数据建立数学模型,用客观有效的方法来评价葡萄酒质量。首先,采用双因子可重复方差分析方法,对红、白葡萄酒评分结果分别进行检验,利用 Matlab 软件得到样品酒各个分析结果,结合 数据分析,发现对于红葡酒有01的评价结果存在显著性差异,对于白葡萄酒只有 53%的评价结果存在显
2、著性差70.3%异。通过比较可知,两组评酒员对红葡萄酒的评分结果更具有显著性差异,而对于白葡萄酒的评分,评价差异性较为不明显。为了评价两组结果的可信度,借助 Alpha 模型用克伦巴赫 系数衡量,并结合 检验,得出红葡萄酒第一组评酒员的评价结果可F信度更高,而对白葡萄酒的品尝评分,第二组评酒员的评价结果可信度更高。综合来看,主观因素对葡萄酒质量的评价具有不确定性。结合已分析出的两组品酒师可靠性结果,对葡萄酒的理化指标进行加权平均,最终得出十位品酒师对样品酒的综合评价得分。将每一样品酒的综合得分与其所对应酿酒葡萄的理化指标(一级指标)共同构成一个数据矩阵,采用聚类分析法,利用 SPSS软件对葡萄
3、酒样进行分类,根据分类的结果以及各葡萄样品酒综合得分最终将酿酒葡萄分为 A(优质)、B(良好)、C(中等)、D(差)四个等级,客观地反映了酿酒葡萄的理化指标与葡萄酒质量之间的联系。为了分析酿酒葡萄与葡萄酒理化指标之间的联系,采用相关分析法,能有效地反映出两者间的联系,取与葡萄各成分相关性显著的葡萄酒理化指标,与葡萄成分做多元线性回归得出葡萄酒理化指标与酿酒葡萄的拟合方程,从而反映酿酒葡萄与葡萄酒理化指标之间的联系。由于已经通过回归分析建立了酿酒葡萄和葡萄酒理化指标之间的关系,因此从酿酒葡萄成分对葡萄酒的理化指标的影响,再研究出葡萄酒理化指标与葡萄酒质量的联系,便可作为一个桥梁,反映出葡萄与葡萄
4、酒理化指标对葡萄酒的质量的作用。研究葡萄酒理化指标与葡萄酒质量的联系,需要运用变量间的相关性及 系数法分析Pearson葡萄酒的理化指标与葡萄酒质量评价指标的相关性,通过比较选出与葡萄酒评价的一级指标相关性程度大的葡萄酒成分,进行回归分析法,建立酿酒葡萄的理化指标与葡萄酒质量之间的拟合方程,结合各个质量一级指标的权重,从而完成了从葡萄酒成分对葡萄酒质量的客观评价。综合计算结果,与酿酒葡萄分级的结果吻合,所以分析结果较客观。2关键词:葡萄酒 双重多因素分析 数据分析 Alpha 模型 聚类分析及欧式距01离相关性分析 多元回归 系数法Pearson1. 问题重述葡萄酒的感官质量是评价葡萄酒质量优
5、劣的重要标志。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,可辅助感官检查。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。试建立数学模型求解下列问题:1. 分析附件 1 中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3. 分析酿酒葡萄与葡萄酒的理化
6、指标之间的联系。4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?32. 问题分析酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,本题要求通过酿酒葡萄的理性指标和酿酒师给予的评分,综合考虑酿酒葡萄的理性指标与葡萄酒的质量的关系。问题一:要求对两组评酒员评价结果有无差异性进行分析,并分析得出哪一组的品酒员的结果更具有可信。通过绘制每个样品酒的均值评分差异图,对每个样品酒的两组评酒员在各个指标的均值进行比较,发现对于红葡萄的评价,两组评酒员还是存在着显著性的差异的,而对于白葡萄
7、酒的评价,两组评酒员的差异性并不是很明显,列举部分红、白葡萄酒评分差异图如下:图表 1 红葡萄酒样品 12 差异图(左边) ,系列 1 为第二组品酒员打分均值,系列 2 为第一组品酒员打分均值。图表 2 红葡萄酒样品 15 差异图(右边) ,横坐标为 10 个指标变量,包括澄清度、色调、香气纯正度、香气浓度、香气质量、口感纯正度、口感浓度、口感质量以及整体评价。针对两组评酒员在大量差异图中表现出来对红、白葡萄酒的评价存在差异,对红、白葡萄酒进行分开地显著性检验。第一步,利用每个样品酒都具有两组评酒员的评价结果,对两组结果进行双因子可重复方差分析,得出题中给出的 27 种葡萄样品酒各个分析结果。
8、比较 27 个显著性检验的结果,若具有显著性差异的样品酒占总样品酒的比例高于 ,有足够的把握认定两组评酒员的评价结果具有显著性差异。第二步,对两组评酒员给予红、白葡萄酒的打分进行可信性分析,将红、白葡萄酒分别进行可信度分析,比较两组评酒员对不同种类葡萄酒的评价是否具有各自的优势。4在进行双因子多重分析和可信性分析之前,需要对原先数据进行如下处理:1.对于附件 1 给出的数据,先将两组品酒员的评价结果按着样品酒进行统一划分,每一样品酒对应着两种评价结果。将每一样品酒的评价结果组成评价矩阵,矩阵以葡萄酒的评价指标为列项,共 10 列,以每个评酒员作为横向量,共 20 行。2.针对红葡萄酒样品 20
9、 评酒员 4 号对色调的评分缺失,利用同组评酒员对红葡萄酒样品 20 色调评分的平均值作为 4 号评酒员的评分值。做可信度分析时,将两组的 27 种酒样品评价结果组成两组评价总矩阵,以葡萄酒的评价指标为列项,共 10 列,以每个评酒员作为横向量,共 270 行,分别用SPSS19.0 对两组矩阵进行信度分析,目的是对量表的可靠性与有效性进行检验,判断出哪一组可信度更高。问题二:问题二要求对酿酒葡萄进行分级,酿酒葡萄的成分直接影响葡萄酒的质量,选取优质营养成分高的酿酒葡萄酿酒,保证了葡萄酒的营养价值和保健价值。但是葡萄酒质量优劣,不单单从营养成分和养身价值上考虑,一瓶优质的葡萄酒,还得具备着可观
10、赏性,纯正的口感、芬芳的酒香等优点,而这些优点,都得由评酒员来给出评价。所以,对酿酒葡萄进行分级,不单单从葡萄的成分上考虑,还得结合最终酿成的葡萄酒质量综合考虑。因此将酿酒葡萄的各成分与评价员给予所酿成的葡萄酒的质量打分综合起来,进行聚类分析,将酿酒葡萄依据综合指数进行分类,结合聚类分析的结果以及综合指标的分数将葡萄划分等级。依据:在进行据聚类分析之前,需要对原始数据进行预先处理1. 分别计算附件一中评酒员各项评分指标的权重并加和,最后求取 10 位评酒员的权重平均值作为葡萄酒样品的综合评价指标。2. 用酿酒葡萄各项理化指标(多次测得的取平均值)以及酒样的综合指标形成一个 31 列 28 行的
11、原始资料阵,并用 SPSS 的 标准化将数据标准化。Z问题三:酿酒葡萄和葡萄酒的理化指标都很多,为了找出它们之间的联系,首先将葡萄的成分与葡萄酒的理性指标列成一个大矩阵,分析葡萄成分与葡萄酒理想指标的相关性,找出它们之间相关性大的指标,与葡萄成分做多元线性回归得出葡萄酒理化指标与酿酒葡萄的拟合方程,从而反映酿酒葡萄与葡萄酒理化指标之间的联系。1. 酿酒葡萄的成分和葡萄酒的理化指标列成一个大矩阵。2. 通过 SPSS 软件做相关性分析,选取与葡萄酒理化指标相关性程度大的葡萄酒成分 个指标,建立拟合方程。n问题四:酿酒葡萄的理化指标并不能直接与葡萄酒的质量建立联系,由于在问题 3 中已经通过相关性
12、分析建立了酿酒葡萄和葡萄酒理化指标之间的关系,因此我们分析葡萄酒的理化指标与葡萄酒质量的相关性,计算相关性系数,通过比较选出系数高的即与葡萄酒质量指标相关性程度大的葡萄酒成分,进而用回归分析法建立酿酒葡萄的理化指标与葡萄酒质量之间的关系。1附表一中列出了十位品酒员对葡萄酒外观、香气和口感分析三者的数据,用Matlab7.6.0b,分别对四项指标求 27(28)种红(白)葡萄酒样品权重平均值作为葡萄酒质量的评价指标。2. 通过 SPSS 软件作因子分析分析两者之间的相关性,选取与葡萄酒质量指标相关性程度大的葡萄酒成分 个指标,建立拟合方程。n53. 符号说明*显著性水平置信度ST误差平方和A行组
13、间误差B列组间误差SE组内误差克伦巴赫系数ijd明考斯基距离2ij欧式距离4. 模型假设(1) 假设数据来源真实有效(2) 假设各变量的相差微小,各坐标对欧式距离的贡献是同等的且变差大小相同,欧氏距离效果理想。(3) 假设酿酒工艺条件相同,无其他人为因素影响(4) 为低信度, 则尚可,若0.35CronbachAlp0.350.7CronbachAlp则属于高信度。假设组一与组二评分分别处于不同信度区间,可7信度差异明显。65. 建模过程5.1. 问题一的建模与求解模型建立:利用双因素可重复方差分析结合 0-1 分析检验两组评酒员的评价结果有无显著性差异1.双因子可重复方差分析的统计模型 。假
14、设在两因子方差分析中,因子 共有1 A个水平,记作 ,每个水平下,进行 次试验,因子 共有 个水平。一个r12,.rAtBk典型的双因子方差分析的数据结构如下表所示。表格 1 双因子可重复方差分析的数据结构因子因子 1B2B kBx1x 1x 1A1t 2t tk 1x12x 1kx rA1t 2t tk为因子 的某个水平下第 试验所得结果, 表示因子 的第 个水平,tkx iAi。第 列数据为因子 的第 个水平下所考察的变量取值,每一列为一个总1,2.irjBj体, =1,2, 。所以一个两因子方差分析的数据结构表里,共有 个总体,jk rtk在本题中, 。下表给出因子 所对应的各个指标:,
15、10,tB12B34B56B78B910B指标 外观澄清度外观色调香气纯正度香气浓度香气质量口感纯正度口感浓度口感持久性口感质量整体得分给出双因子可重复方差分析的原假设和备择假设:01:H两 组 评 酒 员 的 评 价 结 果 不 存 在 差 异 .02:H两 组 评 酒 员 的 评 价 结 果 存 在 着 差 异 .71:H各 个 指 标 对 评 价 结 果 不 存 在 影 响 .12:H各 个 指 标 对 评 价 结 果 存 在 影 响 .当原假设 为真时,说明两组评酒员的评价结果不存在显著性差异,反之称两01组评酒员的评价结果存在着显著性影响因素。当原假设 为真时,说明选取的各个1指标对
16、评价结果没有显著性影响,在本题中,显然原假设 是不成立的,后续的检H验将证明这点。2.两因子方差分析的方差分解。(1)误差平方和。每一个观察值 与总平均值 之间的离差平方和称为误差平ijxx方和,记作 ST=ST21rkijij其中 ,称为总均值。1/rkijixt(2)行组间误差。双因子误差平方和分解的第一部分,称为行组间误差,记作SA=SA2.1riikx(3)列组间误差。双因子误差平方和分解的第二部分,称为列组间误差,记作SB=SB2.1kjjrx(4)组内误差。双因子误差平方和分解的第三部分,称为组内误差,记作 SE=E2.1rkijijijxx行组间误差衡量的是行因子不同水平之间的差
17、异,列组间误差衡量的是列因子不同水平之间的差异。它们的误差值中既包含随即误差也包含了因子影响的系统误差。所以判断行(列)因子是否有显著性影响,主要考察行(列)组间误差和组内误差之间的差异大小。如果行(列)组间误差和组内误差很接近,就认为行(列)因子无显著性影响。反之,认为行(列)因子有显著性影响。两因子方差分析的检验统计量。 21STn:其中 。nrkt根据单因素方差分析推导,有行组间误差服从自由度为 的 分布r2821SAr:列组间误差服从自由度为 的 分布1k22Bk剩余的列组服从自由度为 的 分布rkt21SErkt:则两因素方差分析的检验统计量为如下两个:(1) 行检验统计量。 ,AM
18、FrktSE(2) 列检验统计量。 1,1Bt:双因子可重复方差分析的结果判定当显著性水平为 时,如果 ,拒绝 ,说明两组评酒员1,AFrkt01H的评价结果存在显著性差异;等价的 值检验是,当 值 时,拒绝原假设 ;综PAP01合来讲,当 ,或 值 时,拒绝原假设 。1,AFrktA010-1 数据分析在给定 条件下,对于有 个样品酒来说(红葡萄酒 ,白葡萄酒 )*0.5m27m28m,定义函数:(1)10.51,.iipYi其中 为每个样品酒的 值。ipAP给定置信度:(2)iYm对 个样品酒的双因子可重复方差检验后,得出 值,则认为在置信水平 下,两m 组评酒员的评价结果存在着显著性差异
19、。Alpha 模型进行可靠性分析克伦巴赫 系数:测度内部一致性的一个指标, 与皮尔逊 系数都是一样的范r9围在 01 之间,如果为负值则表明表中某些项目的内容是其他一些项目的反面;越接近于 1,则量表中项目的内部一致性越是高,可信度越大。根据量表中的项目数 和各项之间的相关系数 计算得出kr1()kr当量表中项目 增加时, 值也会增大;同时,项目之间的相关系数 较高时, 也k r会比较大。这里的 是指各项与其他各项之和计算相关系数的平均值。r模型求解:双因子可重复方差分析模型检验利用 Matlab7.6.0 的 函数对已经预处理的数据进行双因子可重复方差分析,anov21可以得到每个样品酒的检
20、验结果,列举两个检验结果如下所示:提取每个样品酒的 所对应 值,然后结合公式(1)、公式(2)进行 0-1 分析,Rowsp得到红、白葡萄酒的各个样品酒的 如下:i图表 3 模型检验结果模型结果分析分析图标 3 的结果,可以知道,对于红葡萄酒来说,对 27 个葡萄酒样品评分检验中,有 70.3%的评价结果中,两组评酒员的评价结果存在着显著性差异(置信水平为 95%)。对于白葡萄酒的 28 个葡萄样品评分的检验,只有 53%的评价结果中,红葡萄酒 值以及 值,得到ipiY0.73ip0.18971 0.00001 0.00040 0.00212 0.16314 0.00138 0.00486 0
21、.00334 0.02476 0.00000 0.00002 0.00011 0.36479 0.21870 Y0 1 1 1 0 1 1 1 1 1 1 1 0 0i0.00046 0.80100 0.00021 0.56414 0.17544 1.00000 0.00002 0.04686 0.01131 0.00017 0.00086 0.00112 0.00045 1 0 1 0 0 0 1 1 1 1 1 1 1白葡萄酒 值以及 值,得到ipiY0.53ip0.00103 0.00001 0.10777 0.31115 0.50613 0.01060 0.34940 0.67936
22、0.00329 0.00460 0.00008 0.08585 0.00011 0.20310 Y1 1 0 0 0 1 0 0 1 1 1 0 1 0i0.01714 0.03333 0.01381 0.19476 0.00339 0.44078 0.00034 0.00005 0.68334 0.46710 0.00031 0.16632 0.13648 0.00001 1 1 1 0 1 0 1 1 0 0 1 0 0 110两组评酒员的评价结果存在显著性检验(置信水平为 95%)。这样的结果,符合之前问题分析中,各个组队样品酒的评分均值差异图。即:两组评酒员对红葡萄的评分结果更具有显著
23、性差异,而对于白葡萄酒的评分,两组评酒员的评价差异性较不明显。Alpha 模型的可靠性分析1. 利用 SPSS19.0 进行可靠性统计量对红葡萄酒的两组品酒员评分的分析第一组红葡萄酒案例处理汇总 第二组红葡萄酒案例处理汇总N% N%有效 268 99.3 有效 270 100.0已排除 2 .7 已排除 0 .0案例总计 270 100.0案例总计 270 100.0第一组红葡萄酒可靠性统计量 第二组红葡萄酒可靠性统计量Cronbachs Alp 基于标准化项的 ronbachs Alp项数Cronbachs Alp 基于标准化项的 ronbachs Alp项数.874 .906 10 .75
24、0 .786 10若将某一项目从量表中剔除,则量表的平均得分、方差(每个项目得分与剩余各项目得分间的相关系数、以该项目为自变量所有其他项目为应变量建立回归方程的值以及 值将会改变。有表知第一组数据中剔除了两项, 增加到2RCronbach 10.874,第一组评酒员红葡萄酒的 ,组2尚有1 2Cronbach0.874Cronbach0.7535%的内容未曾涉及,故信度不高。表格 2 第一组红葡萄酒平方和 df均方 FSig人员之间人员内部 项之间残差总计总均值 = 7.314947.21831938.4945623.50637562.00042509.218267924032412267918.5293548.7222.34015.57315.8681516.417 .00095% 置信区间 使用真值 0 的 F 检验类内相关性 下限 上限 值 1df2dfSig单个测量 .409b .362 .460 7.918 267 2403 .000平均测量 .874c .850 .895 7.918 267 2403 .000