群組變量選擇、組懲罰group lasso套索模型預測新生兒出生體重風險|附代碼數據

2023-07-03     tecdat拓端

原標題:群組變量選擇、組懲罰group lasso套索模型預測新生兒出生體重風險|附代碼數據

原文連結:http://tecdat.cn/?p=25158

最近我們被客戶要求撰寫關於lasso的研究報告,包括一些圖形和統計輸出。

本文介紹具有分組懲罰的線性回歸、GLM和Cox回歸模型的正則化路徑。這包括組選擇方法,如組lasso套索、組MCP和組SCAD,以及雙級選擇方法,如組指數lasso、組MCP

還提供了進行交叉驗證以及擬合後可視化、總結和預測的實用程序。

本文提供了一些數據集的例子;涉及識別與低出生體重有關的風險因素 查看文末了解數據獲取方式 。結果是連續測量(bwt,以公斤為單位的出生體重),也可以是二分法(低),即新生兒出生體重低(低於2.5公斤)。

head(X)

相關視頻

拓端

,贊9

原始設計矩陣由 8 個變量組成,此處已將其擴展為 16 個特徵。例如,有多個種族指標函數(「其他」是參考組),並且已經使用多項式對比擴展了幾個連續因素(例如年齡)(樣條曲線會給出類似的結構)。因此,設計矩陣的列被 分組;這就是_組_的設計目的。分組信息編碼如下:

group

在這裡,組是作為一個因子給出的;唯一的整數代碼(本質上是無標籤的因子)和字符向量也是允許的(然而,字符向量確實有一些限制,因為組的順序沒有被指定)。要對這個數據擬合一個組套索lasso模型。

gLas(X, y,grup)

然後我們可以用以下方法繪製係數路徑

plot

點擊標題查閱往期內容

R語言實現貝葉斯分位數回歸、lasso和自適應lasso貝葉斯分位數回歸分析

左右滑動查看更多

01

02

03

04

請注意,當一個組進入模型時(例如,綠色組),它的所有係數都變成非零;這就是組套索模型的情況。要想知道這些係數是什麼,我們可以使用coef。

請注意,在λ=0.05時,醫生的就診次數不包括在模型中。

為了推斷模型在各種 λ值下的預測準確性,進行交叉驗證。

cv(X, y, grp)

可以通過coef以下方式獲得與最小化交叉驗證誤差的 λ 值對應的係數 :

coef(cvfit)

預測值可以通過 獲得 predict,它有許多選項:

predict # 對新觀察結果的預測

predicttype="ngroups" # 非零組的數量

# 非零組的身份

nvars # 非零係數的數量

predict(fit # 非零係數的身份

原始擬合(對完整數據集)返回為fit; 其他幾種懲罰是可用的,邏輯回歸和 Cox 比例風險回歸的方法也是如此。

本文摘選 R語言群組變量選擇、組懲罰group lasso套索模型預測分析新生兒出生體重風險因素數據和交叉驗證、可視化 ,點擊「閱讀原文」獲取全文完整資料。

點擊標題查閱往期內容

【視頻】Lasso回歸、嶺回歸等正則化回歸數學原理及R語言實例R語言Lasso回歸模型變量選擇和糖尿病發展預測模型

用LASSO,adaptive LASSO預測通貨膨脹時間序列MATLAB用Lasso回歸擬合高維數據和交叉驗證

群組變量選擇、組懲罰group lasso套索模型預測新生兒出生體重風險因素數據和交叉驗證、可視化

高維數據懲罰回歸方法:主成分回歸PCR、嶺回歸、lasso、彈性網絡elastic net分析基因數據

Python高維變量選擇:SCAD平滑剪切絕對偏差懲罰、Lasso懲罰函數比較

R使用LASSO回歸預測股票收益

廣義線性模型glm泊松回歸的lasso、彈性網絡分類預測學生考試成績數據和交叉驗證

貝葉斯分位數回歸、lasso和自適應lasso貝葉斯分位數回歸分析免疫球蛋白、前列腺癌數據

R語言RSTAN MCMC:NUTS採樣算法用LASSO 構建貝葉斯線性回歸模型分析職業聲望數據

r語言中對LASSO回歸,Ridge嶺回歸和彈性網絡Elastic Net模型實現

R語言高維數據懲罰回歸方法:主成分回歸PCR、嶺回歸、lasso、彈性網絡elastic net分析基因數據(含練習題)

廣義線性模型glm泊松回歸的lasso、彈性網絡分類預測學生考試成績數據和交叉驗證

貝葉斯分位數回歸、lasso和自適應lasso貝葉斯分位數回歸分析免疫球蛋白、前列腺癌數據

R語言RSTAN MCMC:NUTS採樣算法用LASSO 構建貝葉斯線性回歸模型分析職業聲望數據

r語言中對LASSO回歸,Ridge嶺回歸和彈性網絡Elastic Net模型實現

R語言高維數據懲罰回歸方法:主成分回歸PCR、嶺回歸、lasso、彈性網絡elastic net分析基因數據(含練習題)

Python中LARS和Lasso回歸之最小角算法Lars分析波士頓住房數據實例

R語言自適應LASSO 多項式回歸、二元邏輯回歸和嶺回歸應用分析

R語言懲罰logistic邏輯回歸(LASSO,嶺回歸)高維變量選擇的分類模型案例

Python中的Lasso回歸之最小角算法LARS

r語言中對LASSO回歸,Ridge嶺回歸和彈性網絡Elastic Net模型實現

R語言實現LASSO回歸——自己編寫LASSO回歸算法

r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現

R使用LASSO回歸預測股票收益

R語言如何和何時使用glmnet嶺回歸

R語言中的嶺回歸、套索回歸、主成分回歸:線性模型選擇和正則化

Python中的ARIMA模型、SARIMA模型和SARIMAX模型對時間序列預測

R語言arima,向量自回歸(VAR),周期自回歸(PAR)模型分析溫度時間序列

【視頻】Python和R語言使用指數加權平均(EWMA),ARIMA自回歸移動平均模型預測時間序列

Python用ARIMA和SARIMA模型預測銷量時間序列數據

文章來源: https://twgreatdaily.com/zh-tw/908c92367cf5180633950f8b4fa27581.html