SAS數據挖掘EM貸款違約預測分析:逐步Logistic邏輯回歸、決策樹、隨機森林

2023-03-07     tecdat拓端

原標題:SAS數據挖掘EM貸款違約預測分析:逐步Logistic邏輯回歸、決策樹、隨機森林

全文連結:http://tecdat.cn/?p=31745

原文出處:拓端數據部落公眾號

近幾年來,各家商業銀行陸續推出多種貸款業務,如何識別貸款違約因素已經成為各家商業銀行健康有序發展貸款業務的關鍵。在貸款違約預測的數據的基礎上,探索是否能通過借貸者的數據判斷其違約風險,從而幫助商業銀行提前做好應對。

解決方案

任務/目標

根據借款者的個人信息和貸款的屬性,運用SAS EM軟體,使用多種模型進行分析。

數據源準備

因獲取數據的能力有限,並為了保證數據量足夠巨大且數據質量較高,我們選擇了貸款違約預測的數據。整個數據集為有800,000條數據,每條數據除了ID、是否違約isDefault該目標值,還包括loanAmnt、term、interestRate、installment、grade、employmentTitle、employmentLength、homeOwnership 29個變量,變量的具體情況在數據探索中進行描述。

特徵轉換

為了進一步探究issueDate和earliesCreditLine這兩個時間ID的時間久遠性是否會對我們的預測產生影響,另外增加了兩個變量,分別是interval_issueDate和Interval_earliesCreditLine,都是用2020減去issueDate和earliesCreditLine的年份得到的。對缺失數據進行補缺,修改年份變量為區間型變量並對其進行分箱處理,對偏正態分布的變量進行對數處理,拒絕單值型變量。

劃分訓練集和測試集

劃分數據集的50%為訓練集,50%為驗證集。

建模

使用逐步Logistic回歸

回歸結果顯示,貸款違約風險與年收入負相關,與債務收入比正相關,與利率正相關,與貸款金額正相關;對於分類變量,貸款年限3年的貸款違約風險顯著小於貸款5年,2013-2015年的貸款違約風險顯著大於2015-2017年等等。

決策樹

使用二分支和三分支決策樹進行分析,結果顯示影響貸款違約的重要因素有homeOwnership、ficoRangeHigh、dti、grade、term、issueDate等。

隨機森林

調參後設置最大樹個數為100,最大深度為50,顯著性水平為0.05,結果顯示訓練誤分類率為0.1964,驗證誤分類率為0.1974,根據Gini縮減,對分類準確度影響較大的變量為grade、interestRate、term、dti、ficoRangeHigh等。

模型比較

通過比較發現,Logistic回歸具有最小的驗證誤分類率,為0.1965,其次是三分支決策樹和隨機森林,最差的為二分支決策樹。

在累積提升度和ROC曲線上,Logistic回歸和隨機森林表現相近,二分支決策樹和三分支決策樹表現相近,但是Logistic回歸和隨機森林模型表現明顯優於兩個決策樹模型。

逐步回歸模型的驗證誤分類率低於決策樹1、決策樹2和隨機森林模型,這表明在這四個模型中,逐步回歸模型相比其他模型對於新樣本具有更強的泛化能力,在對新樣本違約機率的預測上更加準確。

根據結果,就數值型變量而言,違約風險與借款人的債務收入比dti、循環額度利用率revolUtil、貸款利率interestRate、貸款金額loanAmnt、借款人信用檔案中未結信用額度的數量openAcc顯著正相關;與就業職稱employmentTitle、年收入annualIncome、借款人在貸款發放時的FICO所屬的下限範圍ficoRangeLow、分期付款金額installment、信貸周轉餘額合計revolBal、借款人信用檔案中當前的信用額度總數totalAcc顯著負相關。

對於貸款發放年份issueDate,相較於2017年6月之後發放的貸款,2013年6月之前發放的貸款違約風險顯著更大,貸款發放年份在2013.6-2015.6年的違約風險稍低,在2015.6-2017.6年的貸款則顯著更小。

申請類型applicationType為0時,其違約風險顯著小於其值為1時。

相對於貸款等級G,貸款等級為A、B、C時,其違約風險顯著更大,貸款等級為D、E、F時,違約風險則顯著更小。

相對於房屋所有權狀況homeOwnership為5時,homeOwnership為1時,違約風險顯著更小,homeOwnership為0,2,3時,違約風險減小,但其結果在統計學上不顯著;homeOwnership為4時,違約風險升高,但在統計學上仍然不顯著。

貸款用途purpose為0,4,5,8,12時,違約風險顯著大於用途為13,用途為1,7,9時,違約風險顯著更小,用途為2,3,6,10,11時,其違約風險相對於13沒有統計學意義。

貸款期限term為3年時,其違約風險顯著小於貸款期限為5年。

驗證狀態verificationStatus為0時,相對於其值為2時違約風險顯著更大。其值為1時則相對於2違約風險顯著更小。

因此,建議貸款發放機構在評估借款人的違約風險時,重點關注借款人的負債收入比、就業職稱、年收入、房屋所有權狀況等個人信息,並分析借款人的借款行為,包括其申請貸款的金額、利率、分期付款金額、用途、申請類型、貸款等級、貸款期限、驗證狀態,調查借款人的歷史借款記錄,包括循環額度利用率、借款人信用檔案中未結信用額度的數量、貸款發放時的FICO所屬的下限範圍、信貸周轉餘額合計、信用檔案中當前的信用額度總數。

對於已經發放的貸款,如果貸款行為發生於2013年6月之前,貸款發放機構應該儘快追回並做好壞帳準備。

關於分析師

在此對Jiasong Xue對本文所作的貢獻表示誠摯感謝,他在中山大學完成了管理科學專業的學位,專注商業數據分析領域。擅長SPSS、R語言、Python。

文章來源: https://twgreatdaily.com/zh-mo/56c4ddce78fe12b50d49ee36f7c89904.html