1、複迴歸分析-1,Multiple Regression,學習主題,解釋複迴歸模式複習簡單迴歸的重要觀念殘差分析檢定整個模型的顯著性檢定個別變數的影響檢定部分模型電腦報表使用及詮釋,今日重點,解釋複迴歸模式複習簡單迴歸的重要觀念殘差分析檢定整個模型的顯著性檢定個別變數的影響檢定部分模型電腦報表使用及詮釋,迴歸模式之種類,建立線性複迴歸模式之步驟,1.設立迴歸模式中確定之部分(期望值)2.估計模式參數(X變數係數及截距)3.誤差項的機率分配進入統計推論的前提4.評估模式5.利用模式做預測及估計,建立所使用的模型,1.定義模型中所包含的兩個變數獨立變數(可自主變動不受其他因素的影響而改變其值)反應變
2、數(受到獨立變數的影響而改變其值者) 2.根據變數間的關係建立假設之方程式預期的影響 (諸如:正或負相關,係數為何)函數形式 (線性linear或非線性non-linear),一般線性複迴歸模式,某個變數和其它變數之間的線性關係,相依或反應變數(response variable ),獨立或預測變數(predictor variables),Population slopes,Population Y-intercept,隨機誤差(Random error),一般線性複迴歸模式,母體真實關係 代表獨立變數 的貢獻 可為其他變數的函數,例如:,動動腦想一想,Q:若X和Y的關係式為,可否經轉換而成
3、線性模式?,你答對了嗎?,A:可以,則,動動腦想一想,Q:若X和Y的關係式為,可否經轉換而成線性模式?,你答對了嗎?,A:可以,則,母體複迴歸模式,Bivariate model,觀測值,期望值,樣本複迴歸模式,Bivariate model,建立線性複迴歸模式之步驟,1.設立迴歸模式中確定之部分(期望值)2.估計模式參數(X變數係數及截距)3.誤差項的機率分配進入統計推論的前提4.評估模式5.利用模式做預測及估計,學習主題,解釋複迴歸模式複習簡單迴歸的重要觀念殘差分析檢定整個模型的顯著性檢定個別變數的影響檢定部分模型電腦報表使用及詮釋,最小平方法的圖形表達Least Squares Meth
4、od Graphically,Y,X,e1,LS即為使得,最小,e2,e3,e4,最小平方法Least Squares Method,1.最適切 表示觀察值與預估值間的差異為最小但是差異有正有負會互相抵消因此選擇誤差的平方和作為依據較佳2.最小平方法即為使得誤差平方和(SSE)為最小,最小平方法,選擇估計模式,使得誤差平方和,SSE=,為最小,最小平方法的求解過程1,如何使得變異量平方最小呢?,可以使用偏微分,分別讓方程式對,及,取偏微分,並使結果為0,最小平方法的求解過程2,取偏微分,並使結果為0,簡化後得到:,讓方程式對,最小平方法的求解過程3,取偏微分,並使結果為0,簡化後得到:,讓方程
5、式對,最小平方法的求解過程4,取偏微分,並使結果為0,簡化後得到:,讓方程式對,最小平方法的求解過程5,求解聯立方程式並解得,及,計算係數常用的表Computation Table,估計係數之詮釋,1.第k個斜率係數(slope, bk)在所有其它X變數固定下, Xk改變一個單位時, Y平均改變bk的量2. Y-截距(b0)在所有Xk = 0時, 平均之Y值,例一 參數估計,你在New York Times的廣告部門工作. 你想找出廣告大小(平方公分) 和報紙流通量(circulation, 單位千次)對讀者回應次數的效應(單位百次).,你所收集資料如下: 回應廣告大小 流通112488131
6、3572644106,例 一的模型,考慮模型如下:,表廣告大小,表流通量,計算係數常用的表Computation Table,最小平方法的求解,求解聯立方程式並解得b0及b1,b2 15 = 6b0 + 33b1 + 28b2103 = 33b0 + 235b1 + 188b2 88 = 28b0 + 188b1 + 170b2b0=0.0640, b1=0.2049, b2=0.2805,參數估計電腦報表,Parameter Estimates Parameter Standard T for H0:Variable DF Estimate Error Param=0 Prob|T|INTE
7、RCEP 1 0.0640 0.2599 0.246 0.8214ADSIZE 1 0.2049 0.0588 3.656 0.0399CIRC 1 0.2805 0.0686 4.089 0.0264,bi,b2,b0,b1,係數之詮釋,1.斜率 (b1)在流通量不變情形下, 廣告大小(X1) 每增加一平方公分,回應次數(Y), 可期望(平均)增加20.49次, 2.斜率 (b2)在廣告大小不變情形下, 流通量(X2)每增加 仟份的回應次數(Y), 可期望(平均)增加28.05次,3.截距 (b0)在廣告大小(X1) 且每仟份流通量(X2)均為0下, 回應次數(Y), 可期望(平均)增加6.
8、4次,上述說法實為不合理, 故b0無具體意義,線性複迴歸方程式,Too complicated by hand!,Ouch!,例二 參數估計,你是大型連鎖超商的行銷經理,認為活力棒(高能量補充品)為有潛力的產品,想找出產品價格(cent分)和店內促銷(元)對活力棒銷售量(次數/週)的影響,分別在34家連鎖店收集資料如下:,例二 資料,例二的模型,考慮模型如下:,表price,表promotion,參數估計電腦報表,b2,b1,b0,係數之詮釋,1.斜率 (b1)在店內促銷經費不變情形下, 售價(X1) 每降低一分,銷售次數(Y), 可期望(平均)增加53.2次, 2.斜率 (b2)在售價不變情
9、形下,店內促銷經費(X2)每增加 百元的銷售次數(Y), 可期望(平均)增加361.3次,3.截距 (b0)b0亦無具體意義,參數估計電腦報表,b2,b1,b0,係數之詮釋,1.斜率 (b1)在店內促銷經費不變情形下, 售價(X1) 每降低一分,銷售次數(Y), 可期望(平均)增加53.2次, 2.斜率 (b2)在售價不變情形下,店內促銷經費(X2)每增加 百元的銷售次數(Y), 可期望(平均)增加361.3次,3.截距 (b0)b0亦無具體意義,參數估計電腦報表,b2,b1,b0,係數之詮釋,1.斜率 (b1)在店內促銷經費不變情形下, 售價(X1) 每降低一分,銷售次數(Y), 可期望(平
10、均)增加53.2次, 2.斜率 (b2)在售價不變情形下,店內促銷經費(X2)每增加 百元的銷售次數(Y), 可期望(平均)增加361.3次,3.截距 (b0)b0亦無具體意義,比較不同模型的估計值,表price,表promotion,參數估計電腦報表,b2,b1,b0,比較不同模型的估計值,表price,表promotion,建立線性複迴歸模式之步驟,1.設立迴歸模式中確定之部分(期望值)2.估計模式參數(X變數係數及截距)3.誤差項的機率分配進入統計推論的前提4.評估模式5.利用模式做預測及估計,迴歸模型適用前滿足之假設Linear Regression Model Assumptions
11、,1.隨機誤差機率分配的平均數為02.隨機誤差機率分配的變異數為固定常數s23.隨機誤差機率分配為常態分配4.任何隨機誤差間均相互獨立,i.i.d:獨立且為完全相同之分配,1,X,2,X,隨機誤差機率分配示意圖Error Probability Distribution,Y,f(,e,),X,建立線性複迴歸模式之步驟,1.設立迴歸模式中確定之部分(期望值)2.估計模式參數(X變數係數及截距)3.誤差項的機率分配進入統計推論的前提4.評估模式5.利用模式做預測及估計,評估複迴模式之步驟,1.檢視變異測量(決定係數coefficient of determination及模型估計的標準誤)2.殘差
12、分析(residual analysis)3.檢定參數顯著性整個模式個別係數部分模式,隨機誤差變異量Random Error Variation,1.真實的Y與預估的Y 間的差異變異情形2.根據迴歸模型所測得的標準誤模型估計的標準誤3. 受到下列因素的影響模型選定的正確性各個參數估計的正確性,迴歸模型變異量的示意圖Variation Measures,未考慮迴歸前的差異(Yi -Y),模型未能解釋的差異 (Yi - Yi),模型已解釋的差異(Yi -Y),Yi,迴歸模型變異量的量測Measures of Variation in Regression,1.總變異量 (SST或SSy)觀察值Yi
13、與平均數Y差異的平方和2.經由模型可解釋的變異量 (SSR) 平均數Y與預估值Yi間差異的平方和模型仍未解釋之隨機變異量 (SSE) 其他未能考慮到的因素所產生的變異量觀察值Yi與預估值Yi間差異的平方和,判定係數 (Coefficient of Multiple Determination),1.Y 變異量被所有X變數同時解釋到之比例R2 = 解釋到的變異 = SSR 總變異量 SST2.模式中的X變數增多則R2增大僅以 Y 值計算 SST,SST不變但SSE變小比較不同模式時, 利用R2值有缺點(Xs共相關),調整的判定係數(Adjusted Coefficient of Multiple
14、 Determination),考慮自變數的個數和樣本數大小調整後的判定係數比 R2 為小比較不同模型時較為有用,範例二的判定係數,R2=0.7577銷售量的總變異有 75.77%可由售價和促銷經費所解釋,=0.7421比 R2 為小,模型估計的標準誤=Se= 638.07,由ANOVA TABLE計算R2,R2,其他模型的變異測量,SST不變,其他模型的判定係數,R2較小,評估複迴模式之步驟,1.檢視變異測量(決定係數coefficient of determination及模型估計的標準誤)2.殘差分析(residual analysis)3.檢定參數顯著性整個模式個別係數部分模式,殘差分
15、析Residual Analysis,目的檢驗預測變數i與所對應的反應變數Y是否為線性關係,亦即檢測模式的適切性(pattern)評估是否合乎線性迴歸成立的假設偵測離群值或影響點 進階問題,使用殘差的繪圖分析殘差繪製殘差圖殘差的直方圖,莖葉圖或常態機率圖,Studentized 殘差 (SR),加入了自變數之間的差異考量也考量了自變數與因變數的差異調整了 殘差的大小,反應出樣本點在迴歸線附近的變動 可以用來驗證齊一性 -變異數是否一致,殘差圖,以殘差或Studentized 殘差 vs.May need to transform Y variable以殘差或Studentized 殘差 vs.
16、May need to transform variable以殘差或Studentized vs.May need to transform variable以殘差或Studentized vs. 時間May have autocorrelation.,殘差分析 (檢驗線性結構),Residual Plot for Functional Form,Add X2 Term,Correct Specification,圖中無pattern,顯示資料符合誤差項條件,圖中資料呈現出二項形式,範例三,殘差圖,殘差圖,殘差圖,殘差圖,殘差分析 (檢驗齊一性),不,Residual Plot for Ind
17、ependence,Not Independent,Correct Specification,Plots reflect sequence data were collected.,殘差分析圖 (檢驗獨立性),誤差項沒有相互獨立,誤差項相互獨立,e,e,Time,Time,Residual Analysis Computer Output,Dep Var Predict StudentObs SALES Value Residual Residual -2-1-0 1 2 1 1.0000 0.6000 0.4000 1.044 | |* | 2 1.0000 1.3000 -0.3000
18、-0.592 | *| | 3 2.0000 2.0000 0 0.000 | | | 4 2.0000 2.7000 -0.7000 -1.382 | *| | 5 4.0000 3.4000 0.6000 1.567 | |* |,Plot of standardized (student) residuals,範例二的殘差分析,所有殘差值,殘差 vs. promotion,殘差 vs. price,殘差 vs.預測值,常態機率圖,表示殘差很有可能為常態或沒有不為常態的證據,評估複迴模式之步驟,1.檢視變異測量(決定係數coefficient of determination及模型估計的標
19、準誤)2.殘差分析(residual analysis)3.檢定參數顯著性整個模式個別係數部分模式,檢定整體模式之顯著性,1.檢定所有X變數對Y變數的效果2.使用F 檢定統計量(test statistic)3.假設H0: 1 = 2 = . = k = 0所有X變數均不影響YHa: 至少有一個i不為 0 i=1k至少有一個X影響Y,變異數分析ANOVA表,變異數分析表(ANOVA Table),範例二的ANOVA TABLE,K=2 X變數的個數,P值,n-k-1,範例二整體模型的檢定,F,0,3.32,H0: 1 = 2 = 0H1: At least one i 0 = .05df =
20、2 and 31Critical Value(s):,Test statistic: Decision:Conclusion:,Reject at = 0.05,There is evidence that at least one independent variable affects Y, = 0.05,F,48.477,(Excel Output),評估複迴模式之步驟,1.檢視變異測量(決定係數coefficient of determination及模型估計的標準誤)2.殘差分析(residual analysis)3.檢定參數顯著性整個模式個別係數部分模式,檢定個別變數,檢定個別變
21、數 Xi 對 Y的效果,嚴格說來,為其他變數已在模型中時, Xi對 Y的邊際效果使用t 檢定統計量(test statistic)Hypotheses:H0: i = 0 (Xi 不影響Y)H1: i 0 (Xi 對Y有影響),t Test StatisticExcel Output: Example,t Test Statistic for X1 (price),t Test Statistic for X2 (promotion),t Test : Example Solution,H0: 1 = 0H1: 1 0df = 31 Critical Value(s):,Test Statis
22、tic:Decision:Conclusion:,Reject H0 at = 0.05,There is evidence of a significant effect of price on sales.,t,0,2.0395,-2.0395,.025,Reject H,0,Reject H,0,.025, = 0.05,促銷經費不變下,價格是否對銷售量有影響?,t Test Statistic = -7.7664,t Test : Example Solution,H0: 2 = 0H1: 2 0df = 31 Critical Value(s):,Test Statistic:Dec
23、ision:Conclusion:,Reject H0 at = 0.05,There is evidence of a significant effect of price on sales.,t,0,2.0395,-2.0395,.025,Reject H,0,Reject H,0,.025, = 0.05,價格不變下,促銷經費是否對銷售量有影響?,t Test Statistic =5.273,Confidence Interval Estimate for the Slope,i係數的信賴區間:,-67.1925 1 -39.2421,在店內促銷經費不變情形下, 售價(X1) 每降低一分,銷售次數(Y), 在95%的信心水準下,可期望(平均)增加39.2次至67.2次,1係數的信賴區間,Confidence Interval Estimate for the Slope,i係數的信賴區間:,2.216 2 5.011,在店內售價不變情形下,促銷經費(X2) 每增加一百元,銷售次數(Y), 在95%的信心水準下,可期望(平均)增加221.6次至501次,2係數的信賴區間,今日重點複習,解釋複迴歸模式複習簡單迴歸的重要觀念殘差分析檢定整個模型的顯著性檢定個別變數的影響檢定部分模型電腦報表使用及詮釋,