1、1簡易聚類分析能力分組一、研究動機:我們由綠豆成長的實驗中,控制一個變因有無光照(照光、暗室)由實驗結果可以看出在光照環境下的綠豆莖長明顯短於暗室中成長的綠豆。若依此結果,量出每一顆綠豆的莖長畫於數線上(如下圖一所示,S1,S2,S3為照光組、D1,D2,D3 為暗室組) 。很清楚的,如果我們要依據莖的長度將這六顆綠豆分成兩組,那顯然是 S1,S2,S3 一組,D1,D2,D3 一組。這樣直觀的分組結果與實驗的結果不謀而合(即照光組與暗室組) 。然而,這種直觀的分組方法其實就是利用“距離近的在一組“ 的觀點來處裡的。我們就以此為出發點,試著利用距離來處理分組問題。 圖 一 二、研究目的:(一)
2、比較聚類分組與傳統能力分組的差別。(二)若假設數學及生物為國一的理科科目,我們想利用這兩科成績來對班上的同學做一理科能力分組。三、文獻探討:聚類分析是屬於數學領域中的統計範疇,由於近年來電腦運算速度大為提昇,因而讓聚類分析得以實際運用於日常生活中。但由於聚類分析的方法(如階層法中的” 對觀察對象的聚類 (Clustering Case)”包括有單一、平均、中線、最大、最小連結法等等( 見參考資料及其他 1))幾乎都是需要龐大的運算,因此,本文提出一個改進聚類分析的方法,使之可以由人力來處理運算之,並對傳統能力分組與聚類分組做一些探討。四、研究設備器材:免洗碗容器、綠豆、土壤、水。五、研究方法:
3、2首先我們先於照光及暗室環境下培養綠豆並記錄其莖長。(一)實驗步驟:1. 架設培養環境(照光及暗室) 。2. 於此兩環境中各種植 3 顆綠豆,並依序編號光照組 S1,S2,S3 及暗室組D1,S2,D3。3. 每天晚上 9 點記錄各株的莖長。(二)紀錄結果如下表一:莖長 (公分) 1 天 2 天 3 天 4 天 5 天 6 天 7 天 8 天 9 天 10 天 11 天 12 天S1 0 0 0 0 0.5 1 2 3.5 4 4.5 5.5 5.5S2 0 0 0 0 0 0.8 1 2.8 4 6 7 8照光組S3 0 0 0 0 0 0 0.5 2.5 3 4 5 5D1 0 0 0 0
4、.5 1 3 5 7 9 11 13 14D2 0 0 0 0 0.5 1 2 6 7 9 11 12暗室組D3 0 0 0 0 1 2 4 6.5 8 10 10.5 11 表 一 由上表一中可以看出從第 8 天後,這兩組的莖長便有很明顯的差距,接下來我們便要由“距離近的在一組 “的數學方法,來將這六顆綠豆分組。(三)聚類分組:步驟一:求出各物種兩兩間的距離。步驟二:找出步驟一中距離最近的兩物種,並將此兩物種視為一組(即為新的物種) 。步驟三:重複步驟一,直到所有物種聚類到不能聚類為止。現在我們就取第 10 天的六顆綠豆莖長資料來說明之。根據步驟一,我們先求出每顆綠豆莖長兩兩的差,整理如下表
5、:S1 S2 S3 D1 D2 D3S1 0 1.5 0.5 6.5 4.5 5.5S2 - 0 2 5 3 4S3 - - 0 7 5 63D1 - - - 0 2 1D2 - - - - 0 1D3 - - - - - 0 表 由表可以看出這些數據是對稱的,故我們只需列出上三角的數據即可,我們稱這些數據為一距離矩陣。根據步驟二所示,我們可以了解 S1 及 S3 間的距離最近,只有 0.5;因此,我們便將 S1 及 S3 視為一組,並重複步驟一求出新的距離矩陣,整理如下表:S1S3 S2 D1 D2 D3S1S3 0 1.75 6.75 4.75 5.75S2 - 0 5 3 4D1 - -
6、 0 2 1D2 - - - 0 1D3 - - - - 0 表 於表中的(S1,S3)與 S2 間的距離為使用” 平均連結法(Average Linkage)”( 見參考資料及其他 2),即= ( + )= (1.5+2)=1.752)3,1(S123S1很明顯的,我們又可以看出 D2 及 D3 間的距離最近,只有 1(當然 D1 及 D3間的距離也是 1,不過在此我們先舉 D2 及 D3 說明) ;因此,我們便將 D2 及D3 視為一組,並再重複步驟一求出新的距離矩陣,整理如下 表:S1S3 S2 D1D2D3S1S3 0 1.75 6.75 5.25S2 - 0 5 3.5D1 - -
7、0 1.5D2D3 - - - 0 表 同樣的表中的(S1,S3)與(D2,D3)間的距離求法亦是使用平均連結法,即4= ( + + + )3,2)(,1DS412S3D2S3= (4.5+5.5+5+6)=5.25同樣的,將距離最近的 D1 及(D2,D3)視為一組,並再重複步驟一求出新的距離矩陣,整理如下表:S1S3 S2D1D2D3S1S3 0 1.75 5.75S2 - 0 6D1D2D3- - 0 表 由表將距離最近的(S1,S3)及 S2 視為一組,並再重複步驟一求出新的距離矩陣,整理如下表 E 。S1S2S3D1D2D3S1S2S30 5.17D1D2D30 表 表已經是我們最後
8、的聚類結果了,我們可將這一連串的結果(表表) ,用一簡單的結構圖表示之,如下圖二: 圖 二 5由圖二的結構圖可以看出,若將這六顆綠豆分成兩組,其結果為 S1,S2,S3一組、D1,D2,D3 一組,正符合了實驗中的照光組與暗室組。而計算綠豆間兩兩的莖長差(即為數線上兩兩點的距離) ,所使用的距離為一維空間的距離,若我們將之推廣,也就是我們要分析的對班上同學做理科能力分組,其中包括了數學及生物成績,也就是二維空間,當然我們亦是以“距離近的在一組“為出發點來對同學分組,只要我們對距離做一合理的定義,二維空間我們使用最常用的歐氏距離(Euclidean Distance),即 22)1()(yx一旦
9、有了距離定義,便不難算出距離矩陣,我們便可以重複聚類分組步驟來分組了,甚至於同時對八科學科來分組都不是問題了,只要我們把距離定義清楚、合理就行了。六、研究結果與討論:(一)比較聚類分組與傳統能力分組的差別:到底這樣的聚類分組方法有什麼好處呢?我們可以舉一個簡單的例子來說明之。傳統的能力分組,大多是採用加權或不加權的平均分排高低來分組,但是這樣會犧牲掉單科專長或是專業能力過分偏向的學生,舉個例子來說假設有四位同學其國文及數學分數如下表二:學生 數學成績 國文成績 平均分 0 100 50 10 100 55 100 10 55 100 0 50 表 二 圖 三 假設我們要將這四位同學分成兩組,若
10、使用傳統的能力分組平均分排高低來分組,那很明顯的為 A 和 D 一組、B 和 C 一組;這顯然不是合理的分法,由圖三可以很清楚的看出合理的分組應該是 A 和 B 一組, C 和 D 一組才對。使用聚類分組便可以改善這樣的問題,不會將單科專長或是專業能力過分偏向的學生編入不適合的學習環境中,我們可以為這些學生新闢專科能力的進修班,才不致於浪費了人才、阻礙了學生的發展。6(二)實例應用本班的理科能力分組:在做本班的能力分組前,需先考慮一問題徜若對 n 位同學採聚類分組,那麼同學間兩兩的距離(即距離矩陣中的數據)一共需求 次(考慮本班學生 262)1(人,便需要求 325 次) ,其後每一次聚合後,
11、便又要重新計算一次距離矩陣,其運算量想必可觀。因此,我們勢必要想出另一種合理的方法來簡化運算過程,我們稱此新的方法為簡易聚類分組。簡易聚類分組實施步驟步驟一:首先將班上同學分成一半(恰巧本班男女生各 13 人,所以我們採男生 13人、女生 13 人) 。步驟二:分別對男生及女生做聚類分組。步驟三:決定自己所要的分組數,依此組數分別對男生及女生分組。步驟四:分別求出男生及女生各組的平均分,並排出次序;把男生高分組與女生高分組合併為一組,依序次高分、次次高分便完成了最後的簡易聚類分組。現在我們就取本班第二次段考的數學及生物成績來實地操作之。根據步驟一及二,我們省略計算過程( 見參考資料及其他 3)
12、,直接列出最後的結果,其結構圖整理如下圖及圖 。 圖 7 圖 由步驟三,若我們希望將本班分成四組, 圖及圖的分組線可以很明顯的看出已經各分成四組了。最後根據步驟四將各組的數學生物平均分求出,並依其高低排出次序如下表三:組 別 組 員 數學生物平均分F1 3 194F2 1.2.6.7.11.4.12 164.9F3 8.9.10 121.3女生組F4 5.13 63組 別 組 員 數學生物平均分M1 21.22.31.32.23.26.27.33.28 179.9M2 24 162M3 25.30 121.5男生組M4 29 96 表 三 由表三便可以很容易的得到最後我們要的結果,也就是F1M
13、1、F2 M2 、F3M3、F4M4 這四組了這也就是我們簡易聚類分組的實例應用,其本質即為結合聚類分組與傳統平均分組的一新方法。七、結論:(一)聚類分組比傳統的能力分組來的合理,不會犧牲掉單科專長或是專業能力過8分偏向的學生。(二)簡易聚類分組可以依學校硬體設備(教室數目) ,自行決定分組的組數。(三)本文只採用了數學及生物兩學科來分組,其實我們也可以推廣到 8 科的八維空間分組(只要我們的距離定義合理) ,甚至於 n 科的 N 維空間。(四)根據本班第二次段考生物及數學科能力分組的結果顯示,男生的理科程度普遍在女生之上。(五)本文只是利用一次段考成績來分組,其結果然免有失客觀,若真要採此法
14、實行能力分組,則可依據三次段考的數學及生物平均分再加以分組。八、參考資料及其他:. 彭昭英(1998) , SAS 與統計分析 ,儒林圖書有限公司。. Richard A. & Dean W.(1998),Applied Multivariate Statistical Analysis,Prentice-Hall, Inc .本班女生聚類分組詳細計算過程1 2 3 4 5 6 7 8 9 10 11 12 131 0 4.1 19.7 11.3 81.4 5.0 5.4 31.4 23.0 47.6 6.0 14.3 68.12 - 0 19.4 15.0 83.1 4.0 9.1 34.8
15、 25.9 50.2 6.4 15.6 70.03 - - 0 18.9 100.7 15.5 23.9 47.6 41.1 65.8 25.3 34.0 87.24 - - - 0 83.7 13.0 10.4 29.0 23.7 47.8 16.1 21.1 70.05 - - - - 0 86.2 76.8 56.6 60.0 37.0 76.7 67.5 13.96 - - - - - 0 10.3 36.2 28.0 52.6 9.8 18.9 73.07 - - - - - - 0 26.0 17.8 42.5 6.4 11.0 63.48 - - - - - - - 0 10.0
16、 19.7 29.6 23.0 42.79 - - - - - - - - 0 24.8 20.0 13.0 46.310 - - - - - - - - - 0 44.1 35.4 23.011 - - - - - - - - - - 0 9.2 63.712 - - - - - - - - - - - 0 54.513 - - - - - - - - - - - - 01 2,6 3 4 5 7 8 9 10 11 12 131 0 4.55 19.7 9.3 81.4 5.4 31.4 23.0 47.6 6.0 14.3 68.12,6 - 0 17.5 14.0 84.7 9.7 3
17、5.5 27.0 51.4 8.1 17.3 71.53 - - 0 18.9 100.3 23.9 47.6 41.1 65.8 25.3 34.0 87.24 - - - 0 83.7 10.4 29.0 23.7 47.8 16.1 21.1 70.05 - - - - 0 76.8 56.6 60.0 37.0 76.7 67.5 13.997 - - - - - 0 26.0 17.8 42.5 6.4 11.0 63.48 - - - - - - 0 10.0 19.7 29.6 23.0 42.79 - - - - - - - 0 24.8 20.0 13.0 46.310 -
18、- - - - - - - 0 44.1 35.4 23.011 - - - - - - - - - 0 9.2 63.712 - - - - - - - - - - 0 54.513 - - - - - - - - - - - 01,2,6 3 4 5 7 8 9 10 11 12 131,2,6 0 18.2 13.1 83.6 8.3 34.1 25.6 50.1 7.4 16.3 70.43 - 0 18.9 100.3 23.9 47.6 41.1 65.8 25.3 34.0 87.24 - - 0 83.7 10.4 29.0 23.7 47.8 16.1 21.1 70.05
19、- - - 0 76.8 56.6 60.0 37.0 76.7 67.5 13.97 - - - - 0 26.0 17.8 42.5 6.4 11.0 63.48 - - - - - 0 10.0 19.7 29.6 23.0 42.79 - - - - - - 0 24.8 20.0 13.0 46.310 - - - - - - - 0 44.1 35.4 23.011 - - - - - - - - 0 9.2 63.712 - - - - - - - - - 0 54.513 - - - - - - - - - - 01,2,6 3 4 5 7,11 8 9 10 12 131,2
20、,6 0 18.2 13.1 83.6 7.8 34.1 25.6 50.1 16.3 70.43 - 0 18.9 100.3 24.6 47.6 41.1 65.8 34.0 87.24 - - 0 83.7 13.3 29.0 23.7 47.8 21.1 70.05 - - - 0 76.8 56.6 60.0 37.0 67.5 13.97,11 - - - - 0 27.8 19.0 43.3 10.1 63.68 - - - - - 0 10.0 19.7 23.0 42. 79 - - - - - - 0 24.8 13.0 46.310 - - - - - - - 0 35.
21、4 23.012 - - - - - - - - 0 54.51013 - - - - - - - - - 01,2,67,11 3 4 5 8 9 10 12 131,2,67,11 0 20.8 13.1 80.8 31.6 22.9 47.4 13.8 67.63 - 0 18.9 100.3 47.6 41.1 65.8 34.0 87.24 - - 0 83.7 29.0 23.7 47.8 21.1 70.05 - - - 0 56.6 60.0 37.0 67.5 13.98 - - - - 0 10.0 19.7 23.0 42. 79 0 24.8 13.0 46.310 -
22、 - - - - 0 35.4 23.012 - - - - - - 0 54.513 - - - - - - - 01,2,67,11 3 4 5 8,9 10 12 131,2,67,11 0 20.8 13.1 80.8 27.3 47.4 13.8 67.63 - 0 18.9 100.3 44.4 65.8 34.0 87.24 - - 0 83.7 52.7 47.8 21.1 70.05 - - - 0 58.3 37.0 67.5 13.98,9 - - - - 0 22.3 18.0 89.010 - - - - - 0 35.4 23.012 - - - - - - 0 54.513 - - - - - - - 01,2,6,7,11,4 3 5 8,9 10 12 131,2,6,7,11,4 0 20.9 81.3 27.1 47.4 15.0 68.03 - 0 100.3 44.4 65.8 34.0 87.25 - - 0 58.3 37.0 67.5 13.98,9 - - - 0 22.3 18.0 89.010 - - - - 0 35.4 23.012 - - - - - 0 54.5