R語言邏輯回歸logistic對ST股票風險建模分類分析混淆矩陣、ROC曲線可視化

2023-12-08   tecdat拓端

原標題:R語言邏輯回歸logistic對ST股票風險建模分類分析混淆矩陣、ROC曲線可視化

全文連結:https://tecdat.cn/?p=34506

原文出處:拓端數據部落公眾號

信用風險建模是金融領域的重要課題,通過建立合理的信用風險模型,可以幫助金融機構更好地評估借款人的信用狀況,從而有效降低信貸風險。本文使用了 R 語言中的邏輯回歸(logistic)模型,利用國泰安資料庫中的103個上市公司的數據進行信用風險建模,其中包括51個正常公司和52個ST公司。在這個數據集中,我們選取了經營活動產生的現金流量凈額、凈資產收益率、每股收益和每股凈資產等指標來分析其對公司是否為ST股票的影響。

研究目的

通過對某股票數據分析,了解經營活動產生的現金流量凈額、凈資產收益率... 每股收益和每股凈資產對股票是否ST的影響。

數據介紹

某年度隨機抽取的 102個股票。因變量是否為ST股票(0=非ST,1=ST)。為了能夠預測是否為ST,我們採集了下面這些來自當年的指標:經營活動產生的現金流量凈額、凈資產收益率、每股收益、每股凈資產。

我們做完整的邏輯回歸分析,包括參數估計、假設檢驗,以及預測評估和模型評價;

數據分析與模型建立

首先,我們對數據進行了可視化分析,繪製了變量之間的散點圖和計算了它們之間的相關係數。從散點圖和相關係數可以看出,每股收益和每股凈資產呈正相關關係,並且ST股票和非ST股票的4個變量具有顯著差異,非ST股票的各項指標要高於ST股票的變量值。接著,我們進行了完整的邏輯回歸分析,包括參數估計、假設檢驗以及預測評估和模型評價。

讀取數據後查看前幾行數據

js

head(data)

因變量(是否為ST)

STindex

繪製變量之間的散點圖

從上面的圖中,我們可以看到各個變量之間的相關關係,其中每股收益和每股凈資產呈正相關關係 。

相關係數

可以看到ST股票和非ST股票的4個變量具有顯著差異。

非ST股票的各項指標要高於ST股票的變量值。

因此進行邏輯回歸模型的分析。

邏輯回歸

在邏輯回歸分析中,我們將數據集隨機抽取2/3作為訓練集,然後進行模型擬合和評價。擬合結果顯示,經營活動產生的現金流量凈額、凈資產收益率、每股收益和每股凈資產對應的回歸係數均達到了統計顯著性水平,說明這些指標對股票是否為ST具有顯著影響。此外,我們還對模型的預測能力進行了評價,繪製了混淆矩陣和ROC曲線,得到了較高的AUC值,表明模型具有較好的預測效果和識別能力。

隨機抽取2/3作為訓練集

js

split <- sample(1:nrow(data),nrow(data)*(2/3))

summary(fit)

從輸出結果可以看出 ,回歸方程為ST= 1.285e+ 1.532e-10經營活動產生的現金流量凈額 +3.023e-01 凈資產收益率-2.078e+00每股收益-4.586e-01 股凈資產 ,變量和的統計量的估計值分別為1.285e+00、1.532e-10、3.023e-01、-2.078e+00和-4.586e-01 ,每股收益和每股凈資產對應的值都比顯著性水平0.05小,可得2個偏回歸系p數在顯著性水平0.05下均顯著不為零。因此,可以認為每股收益 、每股凈資產 具有顯著的影響。進一步地剩餘方差的估計值,deviance統計量的估計值為96.716 ,說明,回歸方程效果較好。

置信區間是給定自變量值後,由回歸方程得到的的流失預測值(實0y際上是的平均值)的置信區間;預測區間是實際值的置信區間,在這裡稱為預測區間。

可視化混淆矩陣

可視化ROC曲線

performanedict, real ), "auc" )@y.values[[1]]

從AUC的值來看,達到了0.8,因此可以認為模型具有較好的預測效果,同時可以看到roc曲線靠近圖的左上方,說明模型對客戶是否流失具有較好的識別能力,因此該模型可以作為預警系統。然後對模型的殘差進行評估。

殘差分析

我們進一步對模型進行了殘差分析,檢驗了隨機誤差項是否獨立同分布,並找出了一些離群點。針對發現的異常點,我們進行了剔除處理,並重新建立了模型。重新建立的模型同樣進行了混淆矩陣和ROC曲線的評價,結果顯示新模型依然具有較好的預測效果和識別能力。

殘差分析可以對回歸模型的假設條件即隨機誤差項是否獨立同分布進行檢驗,同時還可以找出離群點。命令語句為plot(lm.1),顯示結果如下

左上圖是擬合值與殘差的散點圖,從圖上可以發現,除去第3個離群點外,所有點基本上是隨機地分散在縱坐標值為-1和+1的兩條平行線之間,這說明隨機誤差項具有同方差性;左下圖是擬合值與殘差的標準差的散點圖,其意義與上面類似;右上圖表明隨機誤差項是服從正態分布的,其原因是正態Q-Q圖近似地可以看成一條直線;右下圖的CooK距離圖進一步證實第3個觀測值是一個離群點,它對回歸方程的影響是比較大的,要根據具體問題,討論出現這一觀測值的實際背景。

異常點檢測

找到異常點後進行剔除,然後進行建模

outlier=c(34,45,94 )

混淆矩陣可視化

roc曲線

performancedict, real ), "auc" )@y.values[[1]]

從AUC的值來看,達到了0.8,因此可以認為模型具有較好的預測效果,同時可以看到roc曲線靠近圖的左上方,說明模型對客戶是否流失具有較好的識別能力,因此該模型可以作為預警系統。然後對模型的殘差進行評估。

結論

通過本文的研究,我們建立了邏輯回歸模型來分析公司是否為ST股票與其經營活動產生的現金流量凈額、凈資產收益率、每股收益和每股凈資產之間的關係。我們發現,每股收益對股票是否為ST具有較大影響。然而,需要指出的是,ST股票的形成可能受多種因素影響,本研究只是對其中部分因素進行了分析。未來的研究可以進一步擴大樣本量,引入更多潛在因素,不斷完善信用風險建模方法,以提高模型的預測精度和魯棒性。

最受歡迎的見解

1.用機器學習識別不斷變化的股市狀況—隱馬爾科夫模型(HMM)的應用

2.R語言GARCH-DCC模型和DCC(MVT)建模估計

3.R語言實現 Copula 算法建模依賴性案例分析報告

4.R語言COPULAS和金融時間序列數據VaR分析

5.R語言多元COPULA GARCH 模型時間序列預測

6.用R語言實現神經網絡預測股票實例

7.r語言預測波動率的實現:ARCH模型與HAR-RV模型

8.R語言如何做馬爾科夫轉換模型markov switching model

9.matlab使用Copula仿真優化市場風險