R語言Lasso回歸模型變量選擇和糖尿病發展預測模型|附代碼數據

2023-05-23     tecdat拓端

原標題:R語言Lasso回歸模型變量選擇和糖尿病發展預測模型|附代碼數據

全文連結:http://tecdat.cn/?p=22721

最近我們被客戶要求撰寫關於Lasso回歸模型的研究報告,包括一些圖形和統計輸出。

Lease Absolute Shrinkage and Selection Operator(LASSO)在給定的模型上執行正則化和變量選擇

根據懲罰項的大小,LASSO將不太相關的預測因子縮小到(可能)零。因此,它使我們能夠考慮一個更簡明的模型。在這組練習中,我們將在R中實現LASSO回歸。

練習1

加載糖尿病數據集。這有關於糖尿病的病人水平的數據。數據為n = 442名糖尿病患者中的每個人獲得了10個基線變量、年齡、性別、體重指數、平均血壓和6個血清測量值,以及感興趣的反應,即一年後疾病進展的定量測量。"

接下來,加載包用來實現LASSO。

head(data)

向下滑動查看結果

練習2

數據集有三個矩陣x、x2和y。x是較小的自變量集,而x2包含完整的自變量集以及二次和交互項。

檢查每個預測因素與因變量的關係。生成單獨的散點圖,所有預測因子的最佳擬合線在x中,y在縱軸上。用一個循環來自動完成這個過程。

summary(x)

for(i in 1:10){

plot(x[,i], y)

abline(lm(y~x[,i])

}

向下滑動查看結果

點擊標題查閱往期內容

基於R語言實現LASSO回歸分析

左右滑動查看更多

01

02

03

04

練習3

使用OLS將y與x中的預測因子進行回歸。我們將用這個結果作為比較的基準。

lm(y ~ x)

向下滑動查看結果

練習4

繪製x的每個變量係數與β向量的L1準則的路徑。該圖表明每個係數在哪個階段縮減為零。

plot(model_lasso)

向下滑動查看結果

練習5

得到交叉驗證曲線和最小化平均交叉驗證誤差的lambda的值。

plot(cv_fit)

向下滑動查看結果

練習6

使用上一個練習中的lambda的最小值,得到估計的β矩陣。注意,有些係數已經縮減為零。這表明哪些預測因子在解釋y的變化方面是重要的。

> fit$beta

向下滑動查看結果

練習7

為了得到一個更簡明的模型,我們可以使用一個更高的λ值,即在最小值的一個標準誤差之內。用這個lambda值來得到β係數。注意,現在有更多的係數被縮減為零。

lambda.1se

beta

向下滑動查看結果

練習8

如前所述,x2包含更多的預測因子。使用OLS,將y回歸到x2,並評估結果。

summary(ols2)

向下滑動查看結果

練習9

對新模型重複練習-4。

lasso(x2, y)plot(model_lasso1)

向下滑動查看結果

練習10

對新模型重複練習5和6,看看哪些係數被縮減為零。當有很多候選變量時,這是縮小重要預測變量的有效方法。

plot(cv_fit1)

beta

向下滑動查看結果

本文摘選 R語言Lasso回歸模型變量選擇和糖尿病發展預測模型 ,點擊「閱讀原文」獲取全文完整資料。

點擊標題查閱往期內容

【視頻】Lasso回歸、嶺回歸正則化回歸數學原理及R軟體實例

群組變量選擇、組懲罰group lasso套索模型預測新生兒出生體重風險因素數據和交叉驗證、可視化

【視頻】Lasso回歸、嶺回歸等正則化回歸數學原理及R語言實例R語言Lasso回歸模型變量選擇和糖尿病發展預測模型

用LASSO,adaptive LASSO預測通貨膨脹時間序列MATLAB用Lasso回歸擬合高維數據和交叉驗證

群組變量選擇、組懲罰group lasso套索模型預測新生兒出生體重風險因素數據和交叉驗證、可視化

高維數據懲罰回歸方法:主成分回歸PCR、嶺回歸、lasso、彈性網絡elastic net分析基因數據

Python高維變量選擇:SCAD平滑剪切絕對偏差懲罰、Lasso懲罰函數比較

R使用LASSO回歸預測股票收益

廣義線性模型glm泊松回歸的lasso、彈性網絡分類預測學生考試成績數據和交叉驗證

貝葉斯分位數回歸、lasso和自適應lasso貝葉斯分位數回歸分析免疫球蛋白、前列腺癌數據

R語言RSTAN MCMC:NUTS採樣算法用LASSO 構建貝葉斯線性回歸模型分析職業聲望數據

r語言中對LASSO回歸,Ridge嶺回歸和彈性網絡Elastic Net模型實現

R語言高維數據懲罰回歸方法:主成分回歸PCR、嶺回歸、lasso、彈性網絡elastic net分析基因數據(含練習題)

廣義線性模型glm泊松回歸的lasso、彈性網絡分類預測學生考試成績數據和交叉驗證

貝葉斯分位數回歸、lasso和自適應lasso貝葉斯分位數回歸分析免疫球蛋白、前列腺癌數據

R語言RSTAN MCMC:NUTS採樣算法用LASSO 構建貝葉斯線性回歸模型分析職業聲望數據

r語言中對LASSO回歸,Ridge嶺回歸和彈性網絡Elastic Net模型實現

R語言高維數據懲罰回歸方法:主成分回歸PCR、嶺回歸、lasso、彈性網絡elastic net分析基因數據(含練習題)

Python中LARS和Lasso回歸之最小角算法Lars分析波士頓住房數據實例

R語言自適應LASSO 多項式回歸、二元邏輯回歸和嶺回歸應用分析

R語言懲罰logistic邏輯回歸(LASSO,嶺回歸)高維變量選擇的分類模型案例

Python中的Lasso回歸之最小角算法LARS

r語言中對LASSO回歸,Ridge嶺回歸和彈性網絡Elastic Net模型實現

R語言實現LASSO回歸——自己編寫LASSO回歸算法

r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現

R使用LASSO回歸預測股票收益

R語言如何和何時使用glmnet嶺回歸

R語言中的嶺回歸、套索回歸、主成分回歸:線性模型選擇和正則化

Python中的ARIMA模型、SARIMA模型和SARIMAX模型對時間序列預測

R語言arima,向量自回歸(VAR),周期自回歸(PAR)模型分析溫度時間序列

【視頻】Python和R語言使用指數加權平均(EWMA),ARIMA自回歸移動平均模型預測時間序列

Python用ARIMA和SARIMA模型預測銷量時間序列數據

文章來源: https://twgreatdaily.com/zh-tw/404913a5b2379fc641675734662da0d4.html