全文連結:http://tecdat.cn/?p=31201
原文出處:拓端數據部落公眾號
摘要:此報告首先將dataset進行數據清洗,得到dataset_new。再將dataset_new中屬性分為基本信息、貸款行為/意願信息和徵信信息三類,並逐一進行分析。在對基本信息的分析中得出,在貸款未結清者中,青年群體、中等教育程度群體、中等和高收入群體的頻數較高,同時已婚、受薪雇員占比高於未婚、個體經營者。在對貸款意願與行為的信息分析中得出,貸款意願與行為的變化與是否能夠在規定時間內結清貸款相關性較低。在對徵信信息的分析中可以得出,徵信信息中的正指標與負指標與是否能按期結清貸款有較為顯著的正相關與負相關關係。最後再利用機器學習算法訓練預測是否能夠按期結清貸款的模型,測試結果準確度較高。
1 屬性分類
dataset_new數據集中共有6010個樣本、51個屬性。由於屬性數量較多,為了便於分析,以屬性的物理含義為分類依據,結合現實業務特徵,挑選出具有代表性且特徵涵蓋較為全面的24條屬性,並將其分為三類:基本信息、貸款行為/意願信息和徵信信息。 原始數據:
如表1-1所示。
表 1-1 代表性屬性及其分類
2 基本信息分析
針對貸款未結清者的基本個人信息進行統計分析,可以得出貸款未結清者在年齡、受教育程度等屬性上的分布特徵。
2.1貸款未結清者隨年齡的分布
將所有貸款未結清者從18歲開始以5為區間統計,可以得出如圖2-1-1所示的貸款未結清者隨年齡的分布情況:在23-33歲的青年群體中,貸款未結清者的頻數最高, 在48歲及以上的中老年群體中貢惑術時信者慮對這一群體進行更深入的經濟背景調查款未結清的主要群體,因此在審批貸款時應考慮對這一群體進行更深入的經濟背景調查 和徵信調查,以確保貸款對象具有結清貸款的能力。
圖 2-1-1 貸款未結清者隨年齡的分布
2.2 貸款未結清者隨受教育程度的分布
將貸款未結清者按受教育程度分類,可以得出如圖 2-2-1 所示的結果:在未結清貸款者中,中等教育程度(12th、 Graduation/Diploma)的頻數最高,而低教育程度者和高教育程度者的頻數均較低。
圖 2-2-1 貸款未結清者隨受教育程度的分布
2.3 貸款未結清者的婚姻狀況分布
將貸款未結清者按照婚姻狀況分類,可以得到如圖 2-3-1 所示的結論:在貸款未結清者中,已婚者的比例略高於未婚者,已婚者與未婚者的占比差距並不顯著。
圖 2-3-1 貸款未結清者的婚姻狀況分布
2.4 貸款未結清者的工作狀況和收入狀況分布
將貸款未結清者按照工作狀況進行統計,可以得出如圖2-4-1的結論:在貸款未結清者中,35.48%為個體經營者,64.52%為受薪雇員,受薪雇員的占比顯著高於個題經營者,且兩者比例約為2:1。 將貸款未結清者按照收入狀優進仃,-30 00O)和高收入者(50,000-100, 000)清者中,中等收入者(15,000-20,000、20,000-30,000)和高收入者(50,000-100,000) 的頻數最高,而低收入者(<10,000、>=500,000)的頻數最低。由此可以考慮,在貸款審批時對中等收入和高收入的群體進行跟進一步的經濟背景調查和徵信調查。
圖 2-4-1 貸款未結清者的工作狀況分布
圖 2-4-2 貸款未結清者的收入狀況分布
3 貸款意願與行為信息分析
在數據集中,貸款意願主要由安裝的短期以及長期貸款類的APP數量表征。由於貸款行為在多數情況下是在一定時間段內對資金的需求或者對資金需求的預期所產生的融資行為,故在考慮貸款意願與貸款行為信息分析時可重點考察一定時間段內安裝的貸款類APP數量。
分別將貸款未結清者(藍色)與已經結清者(橙色)近3天與30天內安裝短期貸款APP數繪製成熱力圖,如圖3-1所示,貸款已結清者與未結清者的熱力分布非常近似,所以可認為在一定時間段內安裝的短期貸款APP數量與貸款是否結清的相關性較低。
圖 3-1 貸款未結清者與已經結清者近 3 天與 30 天內安裝短期貸款 APP 數熱力圖
再分別將貸款未結清者(藍色)與已經結清者(橙色)近30天與90天內安裝長期貸款APP數繪製成熱力圖,如圖3-2所示,貸款已結清者與未結清者的熱力分布同樣非常近似,所以也可認為在一定時間段內安裝的長期貸款APP數量與貸款是否結清的相關性同樣較低。
圖 3-2 貸款未結清者與已經結清者近 30 天與 90 天內安裝長期貸款 APP 數熱力圖
結合以上分析推測,由於貸款意願與行為多出自於業務上的客觀需求,所以貸款意願近與行為具有與外生變量相似的特性,因而貸款意願與行為的變化與是否能夠在規定時間內結清貸款相關性不大。
4 徵信信息分析
將徵信數據歸一化之後,計算貸款未結清者與已結清者之間主要指標的差值,如圖4-1。分析可得,對徵信分數、在貸帳戶數等正指標(即值越高越信用越好),未結清者顯著低於已結清者。對歷史逾期總金額、近60查詢機構數等負指標(即值越高越信用越好),未結清者顯著高於已結清者。由此可得,徵信信息中的正指標與負指標與是否能按期結清貸款有較為顯著的正相關與負相關關係。所以在審批貸款時,應該加強對徵信信息的分析與調查,以降低貸款者逾期未結清的機率。
圖 4-1 未結清與結清者徵信指標差(未結清-結清者)
5 基於機器學習方法的結清狀況預測
由於貸款是否能按時結清受到諸多因素影響,也會因為偶然因素產生擾動,同時考慮到對每一個客戶進行人工分析的人工成本和時間成本較高,故考慮訓練基於機器學習方法的結清狀況預測模型,在實際應用中可以直接輸入指標利用模型對是否能夠結清做出預測,從而作為人工審批的依據。 分別採用LogisticRegression、DecisionTree、SVM、XGBoost 算法,以dataset_new中關鍵屬性作為樣本屬性,訓練集:測試集 =8:2分割所有樣本和標籤進行訓練,所得測試集準確率與訓練時間如表5-1所示。
表 5-1 各算法測試集準確率與訓練時間
由表5-1可得,各算法測試集準確率均為1.0,而在訓練時間上DecisionTree顯著低於其他三種算法。考慮到現實應用中數據集規模可能更大,所以可考慮應用DecisionTree對是否能結清貸款進行預測以節約成本和提高效率。
6 總結
此報告對數據集屬性進行了分類,並逐一分析各類屬性與是否能夠結清貸款的關係。 同時給出了一種時間成本低、準確度高的基於機器學習預測是否能夠結清貸款的方法,用於協助貸款審批決策與分析工作。
最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應用案例
2.面板平滑轉移回歸(PSTR)分析案例實現
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言回歸中的Hosmer-Lemeshow擬合優度檢驗
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現
7.在R語言中實現Logistic邏輯回歸
8.python用線性回歸預測股票價格
9.R語言如何在生存分析與Cox回歸中計算IDI,NRI指標