1、信用卡風險分析,組員:E123502191 張智欽 N954020003 于亨宗 M965040023 鍾友華,Introduction,台灣於民國79年實施金融改革措施,開放新銀行成立。為促使金融革新,政府逐漸解除各項管制 ,使得保險、其他非銀行業者,相繼投資或跨足經營金融事業。消費金融商品最活絡的業務中,以信用卡的推廣最為成功。,Introduction(續),在蓬勃發展且競爭激烈的信用卡市場中,各家銀行為了達到其經濟規模,使用各種行銷策略,以擴大市場佔有率。 惡性競爭下,造成一人多卡,個人信用過度膨脹。金管會督促各發卡銀行注意其資產品質,保障消費者權益及健全市場之發展;種種的因素之下,民
2、國九十三年之後的發卡數量極遽的下降。,Introduction(續),Introduction(續),發卡業者意識到信用卡業務的成敗,關鍵乃在於一開始便做有效的風險控管,防範違約於未然 。預先界定出會造成違約的因子,預先排除信用不佳的申請人,以大幅改善信用卡的管理風險,一方面降低違約率,一方面留住好客戶。發卡前的審核及對新申請者的信用評比。,Determination of data set,基本資料(如:婚姻、年齡、有無子女等)。個人財務狀況資料(如:有無貸款、信用卡持有數、月收入等)。客戶所屬風險的狀況。,Data mining procedure,Berry和Linoff 建議資料採礦的
3、技術應符 合10項步驟,我們在報告中將依循這時個 步驟,並敘述每個步驟內完整的內容,以 下是我們10個步驟的過程。,Step 1. Translate the business problem into a data mining problem,無法用一般統計模式從某些屬性欄位來評判甚至預測一個客戶的行為,例如會不會使用循環利息、該客戶的風險高不高、會不會違約等等。透過資料採礦技術(例如:決策樹、類神經網路、貝氏機率分類)和統計方法(例如:羅吉斯回歸),建構出一套完全符合銀行評判客戶特性與其信用卡風險模型之流程。,Step 2. Select appropriate data,資料來源取自銀
4、行信用卡部門的資料庫。資料檔包括有4117筆信用評等以及個人財務狀況資料,也包含基本資料資訊。為顧及保密性,這些原始資料皆已先做過相關的整理。,Step 3. Get to know the data,Step4. create a model set,我們將所收集而來的4117筆原始資料,將資料以隨機的方式抽成約6:4的筆數,把前者當做訓練資料集來建立模型(有2455筆),而後者當做測試資料集(有1662筆),用此來選擇模型以及測量模型在預測未知資料的能力。此數據是為了避免產生過度學習(Overfitting)的狀況,因為用訓練資料集製作模型時,模型往往會記憶一些不是可以放諸四海皆準的規則,
5、而只是一些發生在訓練資料內部的巧合而被當成規則,因此模型預測的準確性會被假性高估。,Step5. fix problems with the data,透過統計的方式,將4117筆原始資料透過敘述統計來計算每個欄位是否有遺漏、極端值、以及超過某一欄位屬性定義範圍的值,若有缺漏則再採取更進一步的處理方式,Step5. fix problems with the data (續),Step6. transform data to bring information to the surface,這些資料中,並沒有適當的欄位可以予以合併,因此本研究採取尋找資料中與風險有所關聯,以及用矩陣的方式表示出
6、每個欄位兩兩間的相關。若欄位間相關過高,就要考慮是否會有共線性的問題,若太低,則還須觀察該欄位與風險的關聯多寡來決定是否要捨棄某一欄位。,Step6. transform data to bring information to the surface,Step7. Build models (Decision Tree),決策樹以樹圖為基礎的方法,決策樹具有規則,規則可以文字表達,讓人容易瞭解,Step7. Build models (Neural Network),經網使用大簡單的相人工經元模仿生物經網的能,Step7. Build models (Logistic),羅吉斯迴歸,也稱定性
7、變數迴歸,是根據輸入欄位值對記錄進行分類的統計方法。,Step8. Assess models,將1662筆的測試資料集放入原先所建立的決策樹模型,比較原有風險與預測風險之模型的正確率,決策樹模型所預測的風險-training,決策樹模型所預測的風險-testing,將1662筆的測試資料集放入原先所建立的類神經網路模型,比較原有風險與預測風險之模型的正確率,類神經模型所預測的風險-training,類神經模型所預測的風險-testing,將1662筆的測試資料集放入原先所建立的羅吉斯回歸模型,比較原有風險與預測風險之模型的正確率,羅吉斯模型所預測的風險-training,羅吉斯模型所預測的風
8、險-testing,Step9. Deploy models,決策樹模型影響的欄位為店家的卡、婚姻狀況、收入、卡數,代入測試資料集後,預測風險正確的值有1204筆,正確率有72.44。,類神經網路以抵押方式、收入、婚姻狀況這三個輸入變數,對於準確度有比較高的顯著性,代入測試集所得預測正確的共有1314筆,正確率達79.06。,羅吉斯回歸式該方程式所得的模型預測力,經由1662筆測試資料所得共有1229筆預測正確,正確率達73.95。,Equation For good risk0.01426 * 年齡 + 0.00001368 * 收入 0.324 * 小孩數 0.4787 * 卡數 0.35
9、75 * 店家的卡 0.1567 * 性別=f + 5.251 * 婚姻狀況=divsepwid 0.0184 * 婚姻狀況=married + 0.8561 * 付款方式=monthly 0.3472 * 有無抵押=n + 1.572 * 抵押方式=0 + 1.314 * 抵押方式=1 0.01788 * 抵押方式=2 0.1962Equation For bad profit0.06256 * 年齡 0.00002478 * 收入 0.1728 * 小孩數 0.416 * 卡數 0.4008 * 店家的卡 + 0.1433 * 性別=f + 2.158 * 婚姻狀況=divsepwid 0
10、.348 * 婚姻狀況=married 0.01668 * 付款方式=monthly + 0.0883 * 有無抵押=n 1.382 * 抵押方式=0 + 0.4091 * 抵押方式=1 + 0.2016 * 抵押方式=2 + 5.602,Step10 Assess results,Conclusion,1.探討那些因素對於形成違約戶具有顯著性的關係 -收入、婚姻狀況。2.三種模型在原先是bad loss而被模型預測成good risk的比率,皆有明顯的下降。 3.透過此模型找出與確定是客戶是屬於哪類型風險值且具有相同背景的帳戶,可以事先針對這些客戶進行查核,進而達到預警效果。,Limit,1.原始資料上授信戶和其他金融機構往來資料以及經濟狀況資料等不易取得。 2.牽涉到保密的關係,所得到的次級資料的變數是經銀行整理過的,故有些項目的變數不易理解 。,