1、區別分析 Discriminant Analysis,輔仁大學心理學系邱皓政2004/11/12,基本定義,一套用來探討分類系統的方法利用多個預測變項去預測類別變項組間變動的統計方法DA與MANOVA的差異DA以類別變項為依變項,目的在檢驗某一個分類程序的有效與否MANOVA以多重連續變項為依變項,目的在討論依變項被IV影響而變化的情形,DA的基本性質,一組IV對於K=2的類別變數的區辨, 可以利用IV的線性組合來找出兩組最大的差異性,此時用來區辨組別的線性組合稱為區別函數(discriminant function)當類別變項K=3時, 可以產生兩組線性組合來描述三組的差異性, 區別函數的數
2、目是類別變項的組數減一各區別函數是否可以穩定有效的區辨不同被預測組, 必須經過統計檢定利用區別函數, 研究者得以對於區分類別的IV進行描述, 並利用函數重新將樣本進行分類,區別函數的意義,Discriminant function: 用以整合多重的IV對於DV的預測分析Discriminant function score (Di): 區別函數分數係針對某一個受測者以區別函數導出的組別預測分數Di=di1z1+ di2z2 + dipzpdi稱為區別函數係數discriminant function coefficient; p為IV的數目Di為標準化分數, 全體樣本的Di平均數為0, 標準差
3、為1; 各分組的Di稱為重心(centroid),DA的基本程序,定向:確認DA的適切性資料庫建立:DV為二組或以上的類別變項, IV為連續或可為連續變項處理之變數DA檢驗基本變項統計各IV單變量統計檢定(等同於單獨的變異數分析)各IV相互獨立性檢驗區別函數的建立函數解釋力檢定區別函數係數估計分類分析分類結果描述統計重心分佈圖命中率分析,Tests for univariate equality of the means,依變項的分組對於自變項的變異來源產生切割:SStotal=SSbetween+SSwithin依變項效果:平均數變異檢定1. F=MSbetween/MStotalF考驗越大
4、,代表組間差異越明顯2. Wilks Lambda=SSwithin/SStotalLambda值介於0至1之間,分數越低,代表組間差異越明顯,值為1時表示組間無差異,範例分析結果:單變量統計分析,FIQ_Perform=157.444/214.333=.735 (n.s.)LambdaIQ_Perform=1286/1600.889=.803(以Oneway ANOVA作為範例如右表),IV相互獨立性檢驗,Pooled within-groups correlation matrix各依變項組中兩兩IV共變矩陣的平均矩陣,區別函數的建立與檢驗,特徵值(eigenvalue)不同依變項組別在區
5、別分數上得分的組間變異除以組內變異Eigenvalue=SSbetween/SSwithin一組區別分數即有一個特徵值特徵值越高,區別函數的區辨性越佳註:可以區別分數為依變項, 類別變項為自變項進行oneway ANOVA來求得相關數據典型相關(canonical correlation)為區別分數與類別變項的相關(即eta),其基礎為區別分數的總變異量被類別變項不同組別所解釋的比例典型相關越高代表該函數越好Wilks lambda為區別分數的總變異量被類別變項不同組別所無法解釋的比例Lambda=SSwithin/SStotalLambbd越小,表示區別函數的區辨性越佳Lambda+eta2
6、=1,Eigenvalue and eta,eigenvalue for function1=80.915/6=13.486eigenvalue for function 2=33.535/6=5.589Eta for function1=(80.915/86.915)1/2=.965Eta for function2=(33.535/39.535)1/2=.921Lambda f1+f2=.01 (chi-square=20.514, p.001)Lambda f2=6/39.535=.152(chi-square=8.484, p.05),個別IV的解釋力,區別係數表示各IV對於DV解釋的
7、貢獻未標準化係數反應各IV對於DV解釋的原始變動量標準化係數反應IV去除單位後的對DV解釋量標準化係數可以比較各IV相對重要性函數與變項相關Pooled within-groups correlation matrix針對個別水準下, 各IV與函數分數的相關Total correlation matrix各IV與函數分數的相關,Fishers 分類函數係數,各組之各受測者以區別函數求出函數分數Cj=cj0+cj1X1+cj2X2 +cjpXpCase1 C=-138.911+1.924*87+-17.56*5+5.55*31+.99*6.4=119.8,Table 11.2,變項選擇方法,FA與多元迴歸類似, 對於IV的重要性選擇採取不同的估計方法同時法所有自變項同時進入區別分析分析中逐步法逐步選入或刪除變數。用以判斷優先順序的標準包括Wilks Lambda 值、無法解釋的變異數、Mahalanobis 距離、最小 F 值和 Raos V 值利用 Raos V 值,您可以指定變數中 V 的最小增量,以便選入。,逐步法:各步驟的選擇狀況,逐步法:對個別變項的估計,分類結果I,分類結果II,分類結果之區別函數圖Discriminant function plots,