作者 | Daniel Faggella
編譯 | CDA數據分析師
Machine Learning for Underwriting and Credit Scoring – Current Possibilities
機器學習在金融領域的出現,讓人們對使用AI自動執行從欺詐檢測到客戶服務的流程產生了強烈的興趣。 儘管某些用例的確定性不如其他用例,但我們的研究使我們相信,在未來五年中,銀行將繼續投資於機器學習,以進行與風險相關的流程,包括保險業。
在關於行業AI播客的採訪中,我們與ZestFinance的CTO Jay Budzik進行了交談,探討了承銷商如何利用基於機器學習的信用模型來贏得更多業務,並通過利用新的數據源來降低風險的方式。現在這些都可以通過數字方式獲得,並且已經成熟,可以用於機器學習模型。
這些模型正在挑戰傳統的信用評分技術,包括FICO評分和簡單的評分卡。 在本文中,我們討論了機器學習如何擴展貸方的客戶基礎,以涵蓋所謂的「看不見信用」(信用記錄薄弱或沒有信用歷史的人)以及信用評分不能準確反映其風險的人。
我們從新的數據源入手:FICO和傳統信用評分的範圍太窄而無法為關鍵的人口統計數據提供服務,而這些人口統計結果通常都被拒之門外。
傳統信用評分變量與新數據源
FICO分數:概述
在過去的三十年中,FICO評分和類似的信用評分已成為信用建模的標準。FICO允許銀行,信用卡公司和其他貸方客觀地評估信貸申請人的信譽。分數是根據五個因素計算得出的,每個因素都由幾個權重不同的變量組成,每個變量都占總FICO得分的百分比:
- 信用歷史記錄(35%):一個人的信用歷史記錄由信用報告上的污點和良好信用兩部分組成。這些污點主要包括逾期付款,破產,喪失抵押品贖回權以及類似的情況,這些情況代表一個人無力償還債務。
- 信用使用率(30%):FICO得分取決於一個人在給定的計費周期中使用了多少信用額度,一個人開設了多少個信用帳戶以及一個人的預付款中有多少是分期付款貸款等因素。
- 信用記錄的時間長度(15%):持有開放信用帳戶的時間越長(只要他們使用它們),他們的FICO得分就越高。
- 信用類型(10%):一個人的FICO分數受其信用額度變化的影響。信用類型包括抵押,汽車貸款和信用卡。
- 新近度(10%):FICO得分取決於一個因素,即最近一次申請信用,還清帳戶或增加餘額的因素,以及其他變量。
看不見的信用和信用歷史的Catch-22
所有這些因素的共同點是,必須事先獲得信貸額度。結果,傳統的信用評分通常是「隱形信用」進入的障礙。根據美國消費者金融保護局(CFPB)的數據,2015年有2600萬看不見信用的美國人,接近十分之一的美國人。此外,CFPB發現「低收入社區的消費者更有可能沒有信用記錄或沒有足夠的當前信用記錄來產生信用評分。」
這些人群最有可能需要貸款購買大筆商品,但是由於缺乏信用記錄,因此在承銷商使用傳統信用評分來評估貸款和信用額度時,他們無法獲得貸款和信用額度的批准:這就是Catch-22。
還有一些借款人的信用評分不能準確反映他們對貸方的風險。益百利(Experian)發現,千禧一代的平均信用評分約為638,低於美國全國平均水平,也遠低於前幾代。該公司承認,部分原因是這些借款人的年齡;他們的信用記錄很薄,信用記錄占FICO分數的30%。結果,放貸者可能不批准它們的貸款,因為它們的分數太低,而實際上卻沒有帶來太大的風險。他們還很年輕。
儘管FICO和傳統的信用評分被證明對年紀較大的中產階級美國人有用,但這些評分對習慣於使用借記卡購物的千禧一代和低收入美國人而言可能沒有那麼大的用處。這些看不見信用的借款人不一定具有風險,但是放款人很少批准它們,因為沒有信用評分,他們的風險尚不清楚。
「隨著時間變化」的挑戰
據該公司稱,FICO分數不會隨著時間而改變。ZestFinance認為,這會使FICO分數很難區分以下兩個人:
- 某人在五年前的信用報告中有幾筆滯納金,但是自從那以後沒有再付款
- 直到最近幾個月才從未在其信用報告中延遲付款的人,在此期間,他們連續錯過了幾次付款
FICO和傳統的信貸模式可能難以解釋這兩個借款人的生活隨時間變化並影響其償債能力的情況。尤其對於年輕人而言,這可能會帶來麻煩,其中許多人正舉債掙扎。
益百利(Experian)在Opploans的一項調查中報告說,大約四分之一的千禧一代認為他們沒有得到良好信譽的教育。同一項調查還發現15%的千禧一代經常錯過信用卡付款。
他們可能會在以後的生活中找到自己的財務基礎,從而可以輕鬆按時付款,但是傳統的信用評分不會立即反映出來。這些借款人可能因為他們年輕時建立的不良信用記錄而難以獲得批准,並且無法開設信用帳戶將使他們的得分保持較低。再次,這是一個陷阱22。
新的數據源可能是解決方案。
信用評分的新數據源
根據Budzik的說法,FICO分數可能會將一打或兩個變量納入其分數:
我們為客戶量產的模型中往往包含數百或數千個變量。我們有一個擁有2200個變量的公司,它在從事自動貸款業務。
更多的數據意味著更細微的信用模型,這些模型可以使承銷商更準確地了解貸款申請人是否存在風險。新數據源可能包括:
- 未決案件的公共記錄
- 汽車貸款申請人希望購買的汽車的品牌和型號
- 借款人希望為其抵押的財產的衛星圖像
- 借款人在其信用卡上購買的產品種類
這些類別的數據將以某種方式通知貸款申請人的信譽,但是傳統的信貸模型並未考慮其中的任何一個。
機器學習的優勢
根據Budzik:
為了能夠考慮更多的變量,[貸方]需要能夠處理它們的新算法。機器學習提供了解決該問題的方法。ML可以考慮所有這些變量,但不會犯錯誤。傳統的評分技術會被諸如數學的相關性和局限性之類的東西絆倒。
通過機器學習,理論上可計入信用模型的數據源數量是無限的。存在無數變量可以預測申請人的還貸能力,並且機器學習擅長在大型數據集中查找模式。基於ML的信用模型可能會考慮到尚未知道的數據點,以預測借款人償還其貸款的可能性。
例如,Zest 與Discover合作,利用信用卡公司的消費者支出資料庫,為其75億美元的個人貸款業務建立了新模式。Zest聲稱該模型評估了數百個申請人數據點,比Discover以前使用的信用模型高出十倍。
據稱建模者發現,折扣商店購物的歷史增加了申請人獲得個人貸款的機會,而申請人在貸款申請上寫上僱主的法定全名會降低這種可能性。
從座機或手機而不是Skype或其他網際網路電話服務致電Discover的申請人被認為是更安全的選擇,因為它們更容易追溯到個人。
此外,這些來源的組合本身會創建自己的數據點。例如,貸款申請人有時會購買汽車配件的事實可能不會影響他們自行償還汽車貸款的能力。
乙UT這與該申請人要拿出貸款可能表明更低或更高的可能性,申請人將支付那筆貸款後面的車的品牌組合。保險人幾乎不可能弄清這種關係,但它們在很大程度上是機器學習的價值。
此外,機器學習可能比傳統的信用模型更具適應性。開發新的信貸模型可能需要一年甚至更長的時間,這可能會阻礙銀行跟上不斷變化的經濟形勢的能力。
客戶和市場可以相對快速地變化。一些用於信貸承銷的機器學習軟體帶有自動風險管理功能,該軟體可以使貸方在不到一個月的時間內對模型進行調整,以便隨著經濟的發展適應其承銷業務。
基於機器學習的信貸模型對貸款人意味著什麼
機器學習可以允許銀行和其他貸方通過批准更多的信用隱性申請人和更多信用評分不完整的信用狀況申請人來增加收入。例如,ZestFinance聲稱已藉助基於機器學習的信貸模型幫助Prestige Financial Services將貸款批准增加了14%。
同時,貸方可能能夠增加收入而又不會增加風險。承銷商可以開始拒絕比其信用評分所暗示的風險高的貸款申請人。結果,貸方可以減少從這些借款人那裡蒙受的損失。
機器學習還可以實現更準確的基於風險的定價。如前所述,與傳統模型相比,基於ML的信用模型可以處理更多的數據,從而使申請人的支付能力更加細緻入微。結果,貸方可以更加細化他們為借款人提供的利率。
ML可以彌補兩個非常相似的借款人之間的微小差異,而這些差異可能值得通過為一個借款人提供更高的利率來加以利用。這樣可以增加每個借款人的利潤率,而不會增加承銷商審查借款人申請的時間。結果,從規模上講,貸方可能會看到收入的大幅增長。
對消費者意味著什麼
依靠新數據源的機器學習模型可以以傳統模型完全專注於信用歷史記錄的方式評估信用隱性申請人。基於機器學習的信用模型的結果是,申請人可能會發現貸方正在批准它們,而這是他們以前所沒有的。信用記錄薄弱的年輕人可能能夠建立自己的信用,因為貸方可以開始註冊。
同樣,在未來,千禧一代可能會發現,過去的信用失誤並不能阻止他們在將來更有能力償還貸款時獲得大筆購買的貸款。
另外,Budzik指出:
貸方可以避免這種情況,而不是批准將要違約的人……通過向無法付款的人提供信貸來製造麻煩,而可以避免這種情況並防止這種情況發生在消費者身上
如前所述,具有良好信用評分的貸款申請人可能構成比其評分所反映的更大的風險。分數在700左右並觸犯法律的申請人可能被迫在一年內分期付款。這樣的判斷可能會影響申請人償還貸款的能力,影響其信用評分,並給他們的未來造成更長期的損害。
基於機器學習的信用模型會考慮未決的案件,這可能表明承銷商不會完全批准申請人,即使他們的信用評分表明他們值得貸款。放貸人本質上可以通過不首先批准貸款來對付風險較高的消費者拖欠其貸款的風險。
掃碼進入CDA官方小程序,解鎖更多新鮮資訊和優質內容,還有免費試聽課程,不要錯過喲!