R語言MCMC的lme4二元對數Logistic邏輯回歸混合效應模型分析吸煙|附代碼數據

2023-04-10     tecdat拓端

原標題:R語言MCMC的lme4二元對數Logistic邏輯回歸混合效應模型分析吸煙|附代碼數據

原文下載連結:http://tecdat.cn/?p=29196

最近我們被客戶要求撰寫關於邏輯回歸混合效應模型的研究報告,包括一些圖形和統計輸出。

吸煙、喝酒和賭博被認為是由許多因素造成的。Logistic回歸分析是一個非常有效的模型,可以檢驗各種解釋變量和二元反應變量之間的關係。同時,雙變量模型分析也被用於檢驗單變量模型之間的相關性。本項目的目的是利用統計方法來檢驗某個因素是否對吸煙、喝酒或賭博偏好有顯著影響。然後用這個結果來預測這些習慣之間的組合

緒論

本節介紹了 "解釋吸煙喝酒和賭博的參與 "的研究背景。實際上,由於吸煙、喝酒和賭博的雙重性和複雜性,它們的爭論從未停止。大量的人把吸煙、喝酒和賭博當作壞習慣,有許多原因使他們反對這些習慣,許多研究也支持他們的觀點。

文獻回顧

涉及吸煙、飲酒和賭博習慣的關聯的文獻越來越多。在早期的研究中,許多研究者認為,吸煙、喝酒和賭博有明顯的結合。每天吸煙的人比非每天吸煙的人更有可能參與賭博活動。每日吸煙者比非每日吸煙者在賭博上花費更多的時間和金錢(Nancy M. Petry和Cheryl Oncken,2002)。

方法論

模型假設

從數據集來看,吸煙、喝酒和賭博的反應顯然只有是或不是,這是二進位的。而且,所有的解釋因素都可以被歸類或被視為連續的。因此,使用Logistic回歸作為基本模型是可靠的。

基礎知識。Logistic回歸可以是二元的,也可以是多元的。在二進位中,結果只能是0或1,而在多進位中,結果可以是三個或更多,例如,A、B和C三個級別。

Logistic函數是

然後

如果有多個解釋變量,上述表達式β0+β1x可以修改為β0+β1x1+β2x2+...。+ βmxm。在這種情況下,我們假設:Y1=吸煙,Y2=喝酒,Y3=賭博。我們有8個解釋變量,每個解釋變量可以分為幾個類別。因此

其中i = 1, 2, 3

那麼,如果吸煙,y1=1,否則y1=0。

y2 = 1,如果喝酒,y2 = 0,否則。

y3=1,如果賭博,y3=0,否則。

此外,隨機效應也應該被添加到模型中。

帶隨機效應的Logistic回歸

分析數據

以下顯示了我們如何進行這項研究。首先,我們參考文獻和以前所做的研究,以確定那些被認為對吸煙、喝酒和賭博有重大影響的潛在變量。

結果

在這一部分中,我們將對單一分類的解釋因素進行分析。首先,將使用箱形圖來顯示連續變量與吸煙、飲酒和賭博等的關聯。箱形圖將顯示連續變量與Yi的關係。同時,條形圖將被用來顯示分類變量的影響。

吸煙結果

ggplot(smoke_age,aes(as.factor(smoking),age))+geom_boxplot()+labs(title="Smoking-age",x="smoking",y="age")

從圖1可以看出,吸煙者的年齡中位數比非吸煙者小。吸煙者的年齡段在18至87歲之間,而非吸煙者則分布在各個年齡段。該圖表明,年輕人更有可能吸煙。年齡對吸煙有明顯的影響,年齡的估計值為-0.1017,這意味著吸煙和年齡有負相關。

ggplot(smoke_gender, aes(gender,fill=as.factor(smoking)))+geom_bar(position = "fill")+labs(title ="Smoking-gender", x = "gender", y = "smoking")

參照圖2,1代表吸煙者,0代表不吸煙者。圖中顯示,男性吸煙者比女性吸煙者多一點,這意味著性別對吸煙偏好有影響。R輸出也給出了同樣的結論,P值是顯著的,男性的估計值為0.20793,這意味著男性更可能吸煙。

圖3表明,教育水平對吸煙習慣有顯著影響。吸煙的機率按照教育水平的順序排列。擁有較高教育水平的人吸煙的可能性較小。儘管數據不詳,但很明顯,擁有學位的人最不可能吸煙,而沒有學歷的人最可能吸煙。HNC組的吸煙者比EDU-18以下組少。圖4右側的估計值與圖中的數據相符。隨著教育水平的提高,吸煙者的機率明顯下降。吸煙的機率與教育水平呈負相關。

點擊標題查閱往期內容

R語言線性混合效應模型(固定效應&隨機效應)和交互可視化3案例

左右滑動查看更多

01

02

03

04

帶有隨機效應的單變量模型

檢查隨機效應的顯著性

fit.no < −glm(gambler 1, f amily = binomial(logit0))

And check significance using

anova(f it.ID, f it.no)

在'fit.no'中加入隨機效應後,AIC從1269.5降低到895.3,P值顯示了家庭ID的顯著影響。因此,在單變量模型中加入隨機效應是合理的。

使用'lme4'擬合單變量模型

在這一節中,吸煙、喝酒和賭博的數據將在單變量模型中被擬合。以下是來自R的結果。

re.smoker=glmer(smoker~male+age+income+whiteO+mixed+asian+chinese+african+other+degresummary(re.smoker)

表2包含對吸煙偏好有明顯影響的變量。可以得出結論:男性、年輕、收入低、無學歷、單身、分居或失業的人更有可能成為吸煙者。而女性、年齡較大、收入較高、有學位、學生或退休的人則不太可能成為煙民。飲酒模型也有和吸煙模型一樣的問題,所以我們也需要放棄一些列以確保模型能夠收斂。

以上是本項目中的單變量模型,每個模型都已經分析過了,接下來我們將使用這些單變量模型來擬合雙變量模型。

使用 "MCMCglmm "擬合單變量模型

由於每個單變量模型都是由一系列因素擬合的,為了了解反應是如何相互影響的,我們可能還要考慮到與其他性狀可能存在的協方差。

model.smoker<- MCMCglmm(smoker~male+age+income+whiteO+mixed+asian+chinese+african+arasummary(model.smoker)

表5中的顯著變量與表2非常相似,唯一不同的是,被放棄的變量 "edu unknown "和 "employother "在表5中是顯著變量。

從表6和表3可以看出,使用'lme4'和'MCMCglmm'的飲酒模型預測了相同的顯著效果。

與表7和表4相比,大多數重要的變量是相同的,只有 "失業 "在使用 "lme4 "的賭博模型中不顯著。

使用'MCMCglmm'的雙變量模型

在本節中,我們將計算出本項目的最終結果,即吸煙、喝酒和賭博習慣之間的關係。

在這裡,我們可以計算出吸煙者和飲酒者之間的相關關係,其方差為

相關性=posterior.mode(correlation) = 0.16

正相關表明,在這個雙變量模型中,喜歡吸煙的人更可能是飲酒者。

在分析了吸煙者和飲酒者之間的相關性之後,我們現在用雙變量的'MCMCglmm'模型來測試吸煙者和賭博者之間的關係船。表9顯示了單變量模型的協變量。

啟示

通過使用邏輯回歸法,我們能夠確定導致吸煙、喝酒和賭博的重要因素。在本項目中,似乎對這三種習慣都有影響的重要因素是性別、教育水平和婚姻狀況。同時,本研究還給出了每個分類因素的估計值,這可以用來說明某個因素對這些習慣的影響是積極的還是消極的。

吸煙、飲酒和賭博之間的組合是通過雙變量模型來檢驗的。利用這個模型,我們可以得到吸煙模型、飲酒模型和賭博模型之間的固定和隨機效應的相關關係。例如,通過正相關關係,我們可以說明喜歡吸煙的人也會喜歡喝酒。

References

Kenneth J.Mukamal. The effects of smoking and drinking on cardiovascular disease and risk factors. Alcohol Research & Health Vol. 29, No. 3, 2006

William J. Blot, Joseph K. McLaughlin, Deborah M. Winn, et al. 吸煙和飲酒與口腔和咽喉癌的關係. 癌症研究》1988;48:3282-3287。

點擊文末 「閱讀原文」

獲取全文完整代碼數據資料。

本文選自《R語言MCMC的lme4二元對數Logistic邏輯回歸混合效應模型分析吸煙、喝酒和賭博影響數據》。

點擊標題查閱往期內容

R語言線性混合效應模型(固定效應&隨機效應)和交互可視化3案例

非線性混合效應 NLME模型對抗哮喘藥物茶鹼動力學研究

生態學模擬對廣義線性混合模型GLMM進行功率(功效、效能、效力)分析power analysis環境監測數據

有限混合模型聚類FMM、廣義線性回歸模型GLM混合應用分析威士忌市場和研究專利申請數據

如何用潛類別混合效應模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年齡數據

R語言用lme4多層次(混合效應)廣義線性模型(GLM),邏輯回歸分析教育留級調查數據R語言 線性混合效應模型實戰案例

R語言混合效應邏輯回歸(mixed effects logistic)模型分析肺癌數據

R語言如何用潛類別混合效應模型(LCMM)分析抑鬱症狀

R語言基於copula的貝葉斯分層混合模型的診斷準確性研究

R語言建立和可視化混合效應模型mixed effect model

R語言LME4混合效應模型研究教師的受歡迎程度

R語言 線性混合效應模型實戰案例

R語言用Rshiny探索lme4廣義線性混合模型(GLMM)和線性混合模型(LMM)

R語言基於copula的貝葉斯分層混合模型的診斷準確性研究

R語言如何解決線性混合模型中畸形擬合(Singular fit)的問題

基於R語言的lmer混合線性回歸模型

R語言用WinBUGS 軟體對學術能力測驗建立層次(分層)貝葉斯模型

R語言分層線性模型案例

R語言用WinBUGS 軟體對學術能力測驗(SAT)建立分層模型

使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM

R語言用WinBUGS 軟體對學術能力測驗建立層次(分層)貝葉斯模型

SPSS中的多層(等級)線性模型Multilevel linear models研究整容手術數據

用SPSS估計HLM多層(層次)線性模型模型

文章來源: https://twgreatdaily.com/zh-tw/0c73faa15d983cb5ced85b107f381e59.html