R語言有限混合模型聚類FMM、廣義線性回歸模型GLM混合應用分析|附代碼數據

2023-08-18     tecdat拓端

原標題:R語言有限混合模型聚類FMM、廣義線性回歸模型GLM混合應用分析|附代碼數據

原文連結:http://tecdat.cn/?p=24742

原文出處:拓端數據部落公眾號

最近我們被客戶要求撰寫關於有限混合模型聚類FMM的研究報告,包括一些圖形和統計輸出。

摘要

有限混合模型是對未觀察到的異質性建模或近似一般分布函數的流行方法。它們應用於許多不同的領域,例如天文學、生物學、醫學或營銷。本文給出了這些模型的概述以及許多應用示例。

介紹

有限混合模型是對未觀察到的異質性建模或近似一般分布函數的流行方法。它們應用於許多不同的領域,例如天文學、生物學、醫學或營銷。最近的專著 McLachlan 和 Peel (2000) 以及 Frühwirth-Schnatter (2006) 中給出了這些模型的概述以及許多應用示例。

有限混合模型

有限混合模型由 K 個不同分量的凸組合給出,即分量的權重為非負且總和為 1。對於每個組件,假設它遵循參數分布或由更複雜的模型給出,例如廣義線性模型 (GLM)。下面我們考慮有限混合密度 h(·|·) 與 K 個分量、因變量 y 和(可選)自變量 x:

其中 ∀w, α:

我們假設分量分布 f(·|·) 來自具有分量特定參數 ϑk 的相同分布族。分量權重或先驗類別機率 πk 可選地取決於伴隨變量 w 和參數 α,並通過多項 logit 模型進行建模,例如 Dayton 和 Macready (1988) 中的建議。McLachlan 和 Peel (2000, p. 145) 中也描述了類似的模型類。該模型可以使用 EM 算法(參見 Dempster 等人,1977 年;McLachlan 和 Peel,2000 年)進行 ML 估計或使用 MCMC 方法進行貝葉斯分析(參見例如 Frühwirth-Schnatter,2006 年)。

示例應用

下面我們將展示兩個使用該包的示例。第一個示例演示基於模型的聚類,第二個示例給出了擬合廣義線性回歸模型的混合的應用。

基於模型的聚類

以下數據集參考了 Simmons 媒體和市場研究。它包含去年使用威士忌品牌的所有家庭,並提供了今年 21 個威士忌品牌的品牌使用情況的二元關聯矩陣。我們首先加載包和數據集。威士忌數據集包含來自 2218 個家庭的觀察結果。圖 1 中給出了每個品牌的相對使用頻率。提供了其他品牌信息,表明威士忌的類型:混合威士忌或單一麥芽威士忌。

R> set.seed(102)

圖 1:威士忌品牌的相對頻率。

我們將二項式分布的混合擬合到數據集,其中假設每個組件特定模型中的變量是獨立的。使用隨機初始化將 EM 算法重複 3 次,即每個觀察值分配給一個後驗機率為 0.9 和 0.1 的成分,否則以相等的機率選擇該成分。

mix(Ine ~ 1,

+ wets = ~ Freq, data = wey,

+ mol = FL,

+ conol = list(mior = 0.005),

+ k = 1:7, nrep = 3)

基於模型的聚類不使用解釋變量,因此公式 Incidence ~ 1 的右側是常數。我們改變 k = 1:7 的成分數量。關於每個不同數量成分的對數似然的最佳解決方案在類「stepFlexmix」的對象中返回。控制參數可用於控制 EM 算法的擬合。使用 minprior 指定成分的最小相對大小,在 EM 算法期間將刪除低於此閾值的成分。

權重參數的使用允許僅使用唯一觀察的數量進行擬合,這可以大大減少模型矩陣的大小,從而加快估計過程。對於這個數據集,這意味著模型矩陣有 484 行而不是 2218 行。可以使用信息標準進行模型選擇,例如 BIC(參見 Fraley 和 Raftery,1998)。

R> BIC

best <- Model(mix, "BIC")

可以使用諸如prior() 或parameters() 之類的函數來檢查估計的參數。

R> prior

R> parameters

每種成分的混合物擬合參數如圖 2 所示。可以看出,成分 4(占家庭的 1.1%)包含購買不同品牌數量最多的家庭,所有品牌的購買程度相似。來自第 5 成分的家庭 (8.5%) 也購買各種威士忌品牌,但傾向於避免單一麥芽威士忌。成分 3 (43.1%) 的使用模式與成分 5 相似,但總體上購買的品牌較少。成分 1 (14.2%) 似乎偏愛單一麥芽威士忌,成分 2 (33%) 尤其喜歡其他品牌,不喜歡尊尼獲加黑標。

混合回歸分析專利數據

專利數據包括從國家經濟研究局的關於製藥和生物醫學公司的專利申請、研發支出和銷售額(以百萬元計)的 70 項觀察結果。數據如圖 3 所示。

Wang等人選擇的最佳模型(1998) 是三個泊松回歸模型的有限混合,其中專利作為因變量,對數化的研發支出 lgRD 作為自變量,每個銷售 RDS 的研發支出作為伴隨變量。該模型可以使用特定於成分的模型驅動程序在 R 中擬合,擬合 GLM 的有限混合。作為伴隨變量模型,用於多項 logit 模型,其中後驗機率是因變量。

mix(Pats ~ RD,

+ k = 3, data ,

+ modlfaily = "poisson"),

+ coninom(~RS))

圖 4 中給出了每個成分的觀測值和擬合值。用於繪製觀測值的顏色是根據使用最大後驗機率的成分分配,這些機率是使用 聚類獲得的。

圖 4:專利數據以及每個成分的擬合值。

在圖 5 中給出了觀測值的後驗機率的根圖。這是擬合函數返回的對象的默認圖。它可用於任意混合模型,並指示混合對觀察結果的聚類程度。為便於解釋,後驗機率小於 eps=10−4 的觀察被省略。對於第三個分量的後驗機率最大的觀測值用不同的顏色著色。該圖是使用以下命令生成的。

plot(pamix)

所有三個分量的後驗都在 0 和 1 處具有模式,表明聚類分離良好(Leisch,2004)。

圖 5:後驗機率的根圖。

可以獲得擬合混合物的更多詳細信息,返回擬合值以及近似標準偏差和顯著性檢驗,參見圖 6。標準偏差只是近似值,因為它們是為每個成分單獨確定的,而不是採用考慮到成分已被同時估計。圖 7 中給出了估計係數。黑線表示(近似的)95% 置信區間。

plot(refit, byclu = FALSE)

參數 cluster 指示成分或不同變量是否用作面板的條件變量。

圖 7:具有相應 95% 置信區間的成分特定模型的估計係數。

該圖表明,即使第一個和第三個分量的 lgRD 係數相似,估計的係數在所有分量之間也有所不同。可以使用聚類參數的估計後驗機率初始化 EM 算法。由於在這種情況下,第一個和第三個分量被限制為具有相同的 lgRD 係數,在重新排序分量以使這兩個分量彼此相鄰後,擬合混合的後驗用於初始化。使用 BIC 將修改後的模型與原始模型進行比較。

fix(fam = "poisson",

+ nesd = list(k = c(1,2),

+ fora = ~lgRD))

mix(Pats ~ 1,

+ cont = FLom(~RDS),

+ data , cluster

在這個例子中,原始模型是首選 被BIC選中。

fit(patx)

概括

本文提供了使用 EM 算法擬合有限混合模型的基礎方法,以及用於模型選擇和模型診斷的工具。我們已經展示了該包在基於模型的聚類以及擬合有限混合模型回歸分析方面的應用。將來,我們希望實現新的模型序,例如,用於具有平滑項的廣義可加模型,以及擴展用於模型選擇、診斷和模型驗證的工具。

最受歡迎的見解

1.R語言k-Shape算法股票價格時間序列聚類

2.R語言中不同類型的聚類方法比較

3.R語言對用電負荷時間序列數據進行K-medoids聚類建模和GAM回歸

4.r語言鳶尾花iris數據集的層次聚類

5.Python Monte Carlo K-Means聚類實戰

6.用R進行網站評論文本挖掘聚類

7.用於NLP的Python:使用Keras的多標籤文本LSTM神經網絡

8.R語言對MNIST數據集分析 探索手寫數字分類數據

9.R語言基於Keras的小數據集深度學習圖像分類

文章來源: https://twgreatdaily.com/zh-mo/a508a00aacd6b5d1c81375fe4c2eb3bf.html