1、第 12章 典型相关分析12.1典型相关分析概述12.2典型相关分析的数学描述12.3典型相关分析的实例分析 12.4典型相关分析的应用在一元统计分析中,研究两个随机变量之间的线性相关关系,可以用简单相关系数;研究一个随机变量与多个随机变量之间的线性相关关系,可用复相关系数。但如果要研究两组变量的相关关系时,这些统计方法就无能为力了。在现实生活中,两组变量之间具有相关关系的问题很多,例如投资性变量(如劳动者人数、货物周转量、生产建设投资等)与国民收入变量(如工农业国内收入、运输业国内收入、建筑业国内收入等)具有相关关系;运动员的体力测试指标(如反复横向跳、纵跳、背力、握力等)与运动能力测试指标
2、(如耐力跑、跳远、投球等)之间具有相关关系等。1936年 Hotelling首先提出了典型相关分析法,用于研究一组随机变量与另一组随机变量之间的相关关系。它借用了主成分分析的思想,根据变量间的相关关系,寻找一个或少数几个综合变量(实际观察变量的线性组合)对来替代原变量,从而将二组变量的关系集中到少数几对综合变量的关系上。12.1 典型相关分析概述典型相关分析就是研究两组变量之间相关关系的一种多元统计分析方法,设两组变量用 及 表示,要研究两组变量的相关关系,一种方法是分别研究 与 之间的相关关系,然后列出相关系数表进行分析,当两组变量较多时,这种做法不仅烦琐,也不易抓住问题的实际;另一种方法是
3、采用类似于主成分分析的做法,在每一组变量中都选择若干个有代表性的综合指标(变量的线性组合),通过研究两组综合指标之间的关系来反映两组变量之间的相关关系。怎样寻找综合指标,使它们之间具有最大的相关性,这就是典型相关分析问题。典型相关分析首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其与第一对线性组合不相关,而第二对本身具有最大相关性,如此继续下去,直到两组变量之间的相关性被提取完毕为止。这些综合变量被称为典型变量,或典则变量,第对典型变量间的相关系数则被称为第典型相关系数。一般来说,只需要提取对典型变量即可较为充分的概括样本信息。用和的线性组合
4、之间的相关来研究和之间的相关性。典型相关分析的目的就是希望找到向量 a和 b,使 最大,从而找到替代原始变量的典型变量 U和 V。在实际问题中,也可以从样本的相关阵 R出发来计算样本的典型相关系数和典型变量。可以证明,当两个变量组均只有一个变量时,典型相关系数即为简单相关系数;当一组变量只有一个变量时,典型相关系数即为复相关系数。故可以认为典型相关系数是简单相关系数、复相关系数的推广,或者说简单相关系数、复相关系数是典型相关系数的特例。12.3 典型相关分析的实例分析例 12.1为研究业内人士和观众对于一些电视节目的观点的关系,对某地方 30个电视节目做了问卷调查并给出了平均评分。观众评分来自低学历 (led)、高学历 (hed)和网络 (net)调查三种 ,它们形成第一组变量;而业内人士分评分来自包括演员和导演在内的艺术家 (arti)、发行 (com)与业内各部门主管 (man)三种,形成第二组变量。参加图 12.1,数据间 TV.Sav。