原文連結：http://tecdat.cn/?p=25158

原文出處：拓端數據部落公眾號

本文擬合具有分組懲罰的線性回歸、GLM和Cox回歸模型的正則化路徑。這包括組選擇方法，如組lasso套索、組MCP和組SCAD，以及雙級選擇方法，如組指數lasso、組MCP。還提供了進行交叉驗證以及擬合後可視化、總結和預測的實用程序。

本文提供了一些數據集的例子；涉及識別與低出生體重有關的風險因素。結果是連續測量（bwt，以公斤為單位的出生體重），也可以是二分法（低），即新生兒出生體重低（低於2.5公斤）。

head(X)

原始設計矩陣由 8 個變量組成，此處已將其擴展為 16 個特徵。例如，有多個種族指標函數（「其他」是參考組），並且已經使用多項式對比擴展了幾個連續因素（例如年齡）（樣條曲線會給出類似的結構）。因此，設計矩陣的列被分組；這就是組的設計目的。分組信息編碼如下：

group

在這裡，組是作為一個因子給出的；唯一的整數代碼（本質上是無標籤的因子）和字符向量也是允許的（然而，字符向量確實有一些限制，因為組的順序沒有被指定）。要對這個數據擬合一個組套索lasso模型。

gLas(X, y，grup）

然後我們可以用以下方法繪製係數路徑

plot

請注意，當一個組進入模型時（例如，綠色組），它的所有係數都變成非零；這就是組套索模型的情況。要想知道這些係數是什麼，我們可以使用coef。

請注意，在λ=0.05時，醫生的就診次數不包括在模型中。

為了推斷模型在各種 λ值下的預測準確性，進行交叉驗證。

cv(X, y, grp)

可以通過coef以下方式獲得與最小化交叉驗證誤差的 λ 值對應的係數：

coef(cvfit)

預測值可以通過獲得 predict，它有許多選項：

predict # 對新觀察結果的預測

predicttype="ngroups" # 非零組的數量

# 非零組的身份

nvars # 非零係數的數量

predict(fit # 非零係數的身份

原始擬合（對完整數據集）返回為fit; 其他幾種懲罰是可用的，邏輯回歸和 Cox 比例風險回歸的方法也是如此。

最受歡迎的見解

1.R語言多元Logistic邏輯回歸應用案例

2.面板平滑轉移回歸(PSTR)分析案例實現

3.matlab中的偏最小二乘回歸（PLSR）和主成分回歸（PCR）

4.R語言泊松Poisson回歸模型分析案例

5.R語言回歸中的Hosmer-Lemeshow擬合優度檢驗

6.r語言中對LASSO回歸，Ridge嶺回歸和Elastic Net模型實現

7.在R語言中實現Logistic邏輯回歸

8.python用線性回歸預測股票價格

9.R語言如何在生存分析與Cox回歸中計算IDI，NRI指標

R語言群組變量選擇、組懲罰group lasso套索模型預測分析新生兒出生體重風

9.R語言如何在生存分析與Cox回歸中計算IDI，NRI指標

SPSS用多元逐步回歸模型對上證指數預測、描述統計和相關分析可視化研究

數據報告分享|WEKA貝葉斯網絡挖掘學校在校人數影響因素數據分類模型

matlab使用長短期記憶（LSTM）神經網絡對序列數據進行分類|附代碼數據

R軟體文本挖掘分析服裝公司職位要求數據和分布地理可視化

R語言大學城咖啡店消費問卷調查報告：信度分析、主成分分析可視化

SAS邏輯回歸logistic在對鮑魚年齡識別中的應用可視化

R語言邏輯回歸logistic對ST股票風險建模分類分析混淆矩陣、ROC曲線可視化

【視頻】Copula算法原理和R語言股市收益率相依性可視化分析|附代碼數據

數據分享|AARRR模型淘寶用戶行為分析、電商銷售分析

SPSS modeler利用類神經網絡對茅台股價漲跌幅度進行預測

ARIMA模型，ARIMAX模型預測冰淇淋消費時間序列數據|附代碼數據

在r語言中使用GAM（廣義相加模型）進行電力負荷時間序列分析|附代碼數據

【專題】2023年全球製藥行業研究報告PDF合集分享（附原數據表）

【專題】中國仿生機器人產業全景報告PDF合集分享（附原數據表）

數據分享|R語言逐步回歸模型對電影票房、放映場數、觀影人數預測可視化

HAR-RV-J與遞歸神經網絡（RNN）混合模型預測和交易大型股票指數|附代碼數據

【專題】2023中國產業元宇宙趨勢研究報告PDF合集分享（附原數據表）

【專題】2023年中國社會辦口腔醫療企業報告PDF合集分享（附原數據表）

【專題】中國數字科技產業投資發展研究報告PDF合集分享（附原數據表）

MATLAB熱傳導方程模型最小二乘法模型、線性規劃對集成電路板爐溫優化

R語言機器學習方法分析二手車價格影響因素

基於ARIMA、SVM、隨機森林銷售的時間序列預測|附代碼數據

R語言Copula模型分析股票市場板塊相關性結構|附代碼數據

上海、國際新冠疫情數據分析可視化