全文連結:http://tecdat.cn/?p=30914
最近我們被客戶要求撰寫關於廣義線性模型(GLM)的研究報告,包括一些圖形和統計輸出。
我們正和一位朋友討論如何在R軟體中用GLM模型處理全國的氣候數據。本文獲取了全國的2021年全國的氣候數據
採樣時間:2021年1月1號~2021年12月31號
採樣地點:全國各地。
本次調查搜集了2021年全國不同地區的風向、降雨量、風速、風速變化、最大風速、最大降雨量、閃電機率等數據。並對不同變量之間的相關性進行了調查,對國家數據預測的錯誤率進行了GLM模型擬合。
讀取數據
library(car)
library(MuMIn)
head(data)
讀取因變量
numberFaults=data$numblts
head(data1)
相關分析
調查的出的各指標數據用R軟體進行處理並且用箱圖進行對比顯示。
部分指標的箱線圖
查看各變量之間的相關係數
有顯著的相關關係。從變量相關關係圖和矩陣,可以看到temperatureMin和temperatureMax,windChillMin,windChillMax,以及gustSpeed和windSpeed之間,rainfall和changeInRainfall,以及lightningRisk和lightningCategory之間都有教明顯的線性相關關係。yearDay和windChill之間也有一定的相關關係。
glm 線性回歸模型
summary(glm.po)
點擊標題查閱往期內容
數據分享|R語言用lme4多層次(混合效應)廣義線性模型(GLM),邏輯回歸分析教育留級調查數據
左右滑動查看更多
01
02
03
04
檢驗是否存在多重共線性問題
kappa(cor(data[,c(1:15,17:20)]), exact=T)
## [1] 3.020456e+18
判斷多重共線性變量
進一步模型優化
step(glm.po2)
summary(glm.step)
vif
從模型中變量的VIF值來看,大多數變量之間不存在較強的多重共線性關係。從殘差擬合圖來看,大部分樣本擬合值分布在0周圍,說明擬合結果較理想。981,2331和524號樣本可能為異常點。從正態分布qq圖來看,大部分點分布在圖中直線附近。說明樣本點服從正態分布。同樣,擬合值的標準殘差也分布在紅線周圍,說明擬合效果較好。同樣,大部分樣本的cook』 distance距離在正常範圍內,392,624,622號樣本的cook』 distance較大,可能會對模型產生較大的影響。
全子集回歸來選出最優的模型
全子集回歸,即基於全模型獲得可能的模型子集,並根據AIC值等對子集排序以從中獲取最優子集。
重新擬合模型
優化模型
avg(ms1, subset = delta < 10,fit=T,rank = "AIC")
殘差圖
plot(pre-numberFaults)
計算R-squre值,查看模型擬合情況
Rsquare=ssr/sst
從邏輯回歸結果來看,模型中部分自變量對因變量的影響較為明顯,達到了0.01的顯著性水平,具有一定的理論意義。然而從AIC的值來看,達到了4024.881,數值較大,說明模型的擬合度較差,有進一步改進的空間。一般認為計算條件數kappa(X),k<100,說明共線性程度小,如果1001000,存在嚴重的多重共線性。從結果來看,kappa值遠遠大於1000,因此判斷該模型存在嚴重的共線性問題,即線性回歸模型中的解釋變量之間由於存在精確相關關係或高度相關關係而使模型估計失真或難以估計準確。changintemp,changinrainfall,windspeedmin,lightningcategory ,rainfallMax之間存在較高的相關關係會對模型的擬合失真並且難以用以估計和預測,因此,刪掉這些變量後重新對模型進行擬合。刪除部分共線性程度高的變量後可以看到模型的AIC降低了,因此,模型的擬合程度提高了。大部分樣本的cook』 distance距離在正常範圍內,392,624,622號樣本的cook』 distance較大,可能會對模型產生較大的影響。
點擊文末 「閱讀原文」
獲取全文完整代碼數據資料。
本文選自《R語言廣義線性模型(GLM)、全子集回歸模型選擇、檢驗分析全國風向氣候數據》。
點擊標題查閱往期內容
R語言用Rshiny探索lme4廣義線性混合模型(GLMM)和線性混合模型(LMM)
R語言用潛類別混合效應模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年齡數據
R語言貝葉斯廣義線性混合(多層次/水平/嵌套)模型GLMM、邏輯回歸分析教育留級影響因素數據R語言估計多元標記的潛過程混合效應模型(lcmm)分析心理測試的認知過程
R語言因子實驗設計nlme擬合非線性混合模型分析有機農業施氮水平
R語言非線性混合效應 NLME模型(固定效應&隨機效應)對抗哮喘藥物茶鹼動力學研究
R語言用線性混合效應(多水平/層次/嵌套)模型分析聲調高低與禮貌態度的關係
R語言LME4混合效應模型研究教師的受歡迎程度R語言nlme、nlmer、lme4用(非)線性混合模型non-linear mixed model分析藻類數據實例
R語言混合線性模型、多層次模型、回歸模型分析學生平均成績GPA和可視化
R語言線性混合效應模型(固定效應&隨機效應)和交互可視化3案例
R語言用lme4多層次(混合效應)廣義線性模型(GLM),邏輯回歸分析教育留級調查數據R語言 線性混合效應模型實戰案例
R語言混合效應邏輯回歸(mixed effects logistic)模型分析肺癌數據
R語言如何用潛類別混合效應模型(LCMM)分析抑鬱症狀
R語言基於copula的貝葉斯分層混合模型的診斷準確性研究
R語言建立和可視化混合效應模型mixed effect model
R語言LME4混合效應模型研究教師的受歡迎程度
R語言 線性混合效應模型實戰案例
R語言用Rshiny探索lme4廣義線性混合模型(GLMM)和線性混合模型(LMM)
R語言基於copula的貝葉斯分層混合模型的診斷準確性研究
R語言如何解決線性混合模型中畸形擬合(Singular fit)的問題
基於R語言的lmer混合線性回歸模型
R語言用WinBUGS 軟體對學術能力測驗建立層次(分層)貝葉斯模型
R語言分層線性模型案例
R語言用WinBUGS 軟體對學術能力測驗(SAT)建立分層模型
使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM
R語言用WinBUGS 軟體對學術能力測驗建立層次(分層)貝葉斯模型
SPSS中的多層(等級)線性模型Multilevel linear models研究整容手術數據
用SPSS估計HLM多層(層次)線性模型模型