最近我們被客戶要求撰寫關於增強回歸樹(BRT)的研究報告,包括一些圖形和統計輸出。
在本文中,在R中擬合BRT(提升回歸樹)模型。我們的目標是使BRT(提升回歸樹)模型應用於生態學數據,並解釋結果。
本教程的目的是幫助你學習如何在R中開發一個BRT模型。
有兩套短鰭鰻的記錄數據。一個用於模型訓練(建立),一個用於模型測試(評估)。在下面的例子中,我們加載的是訓練數據。存在(1)和不存在(0)被記錄在第2列。環境變量在第3至14列。
> head(train)
擬合gbm模型,你需要決定使用什麼設置,本文為你提供經驗法則使用的信息。這些數據有1000個地點,包括202條短鰭鰻的存在記錄。你可以假設:1. 有足夠的數據來建立具有合理複雜性的相互作用模型 2. 大約0.01的lr學習率可能是一個合理的初始點。下面的例子顯示如何確定最佳樹數(nt)。
step(data= train, x = 3:13,
family = "bernoulli", comp = 5,
lr = 0.01, bag.fr = 0.5)
對提升回歸樹模型進行交叉驗證優化。
使用1000個觀測值和11個預測因子,創建10個50棵樹的初始模型。
上面我們使用了交叉驗證的。我們定義了:數據;預測變量;因變量--表示物種數據的列號;樹的複雜度--我們首先嘗試樹的複雜度為5;學習率--我們嘗試用0. 01。
運行一個如上所述的模型,將輸出進度報告,做出圖形。首先,你能看到的東西。這個模型是用默認的10倍交叉驗證法建立的。黑色實心曲線是預測偏差變化的平均值,點狀曲線是1個標準誤差(即在交叉驗證上測量的結果)。紅線表示平均值的最小值,綠線表示生成該值的樹的數量。模型對象中返回的最終模型是在完整的數據集上建立的,使用的是最優的樹數量。
length(fitted)
返回的結果包含 fitted - 來自最終樹的擬合值,fitted.vars - 擬合值的方差, residuals - 擬合值的殘差,contribution - 變量的相對重要性。statistics - 相關的評估統計量。cv.statistics 這些是最合適的評估統計數據。
我們在每個交叉驗證中計算每個統計量(在確定的最佳樹數下,根據所有交叉驗證中預測偏差的平均變化進行計算),然後在此呈現這些基於交叉驗證的統計量的平均值和標準誤差。weights - 擬合模型時使用的權重(默認情況下,每個觀測值為 "1",即權重相等)。trees. fitted - 階段性擬合過程中每一步所擬合的樹的數量記錄;training.loss.values - 訓練數據上偏差的階段性變化 ,cv.values - 階段性過程中每一步所計算的預測偏差的CV估計值的平均值。
你可以用摘要函數查看變量的重要性
> summary(lr )
以上是對設置的初步猜測,使用了Elith等人(2008)中討論的經驗法則。它做出的模型只有650棵樹,所以我們的下一步將是減少lr。例如,嘗試lr = 0.005,爭取超過1000棵樹。
step(data=train, x = 3:13,
tree.co = 5,
+ lr = 0.005
為了探索其他設置是否表現更好,你可以將數據分成訓練集和測試集,或者使用交叉驗證結果,改變tc、lr和bagging,然後比較結果。
簡化會建立了許多模型,所以它可能很慢。在其中,我們評估了簡化lr為0.005的模型的價值,但只測試剔除最多5個變量("n.drop "參數;默認是自動規則一直持續到預測偏差的平均變化超過gbm.step中計算的原始標準誤差)。
對於我們的運行,估計要剔除的最佳變量數是1;可以使用紅色垂直線指示的數字。現在,建立一個剔除1個預測變量的模型,使用[[1]]表示我們要剔除一個變量。
點擊標題查閱往期內容
R語言樣條曲線、決策樹、Adaboost、梯度提升(GBM)算法進行回歸、分類和動態可視化
左右滑動查看更多
01
02
03
04
step( x= pred.list[[1]], )
現在這已經形成了一個新的模型,但是考慮到我們並不特別想要一個更簡單的模型(因為在這種規模的數據集中,包含的變量貢獻很小是可以接受的),我們不會繼續使用它。
由我們的函數創建的BRT模型的擬合函數可以用plot來繪製。
> plot( lr005 )
這個函數的附加參數允許對圖進行平滑表示。根據環境空間內觀測值的分布,擬合函數可以給出與每個預測因子有關的擬合值分布。
fits( lr005)
每張圖上方的數值表示與每個非因素預測因子有關的擬合值的加權平均值。
該代碼評估數據中成對的交互作用的程度。
inter( lr005)
返回一個列表。前兩個部分是對結果的總結,首先是5個最重要的交互作用的排名列表,其次是所有交互作用的表格。
f$intera
你可以像這樣繪製交互作用。
persp( lr005, z.range=c(0,0.6)
如果您想對一組地點進行預測(而不是對整個地圖進行預測),一般的程序是建立一個數據框架,行代表地點,列代表您模型中的變量。我們用於預測站點的數據集在一個名為test的文件中。"列需要轉換為一個因子變量,其水平與建模數據中的水平一致。使用predict對BRT模型中的站點進行預測,預測結果在一個名為preds的向量中。
preds <- predict(lr005,test,
deviance(obs=test, pred=preds)
> d <- cbind(obs, preds)
> e <- evaluate(p=pres, a=abs)
gbm中預測的一個有用的特點是可以預測不同數量的樹。
tree<- seq(100, 5000, by=100)
predict( n.trees=tree, "response")
上面的代碼會形成一個矩陣,每一列都是模型對tree.list中該元素所指定的樹數量的預測,例如,第5列的預測是針對tree.list[5]=500棵樹。現在來計算所有這些結果的偏差,然後繪製。
> for (i in 1:50) {
calc.devi(obs,
+ pred[,i])
+ }
> plot(tree.list,deviance
這裡我們展示了如何對整張地圖進行預測。
> plot(grids)
我們用一個常量值("因子 "類)創建一個data.frame,並將其傳遞給預測函數。
> p <- predict(grids, lr005,
> plot(p)
本文摘選 《 R語言生態學建模:增強回歸樹(BRT)預測短鰭鰻生存分布和影響因素 》 ,點擊「閱讀原文」獲取全文完整資料。
點擊標題查閱往期內容
Python決策樹、隨機森林、樸素貝葉斯、KNN(K-最近鄰居)分類分析銀行拉新活動挖掘潛在貸款客戶
R語言邏輯回歸(Logistic Regression)、回歸決策樹、隨機森林信用卡違約分析信貸數據集R語言基於Bagging分類的邏輯回歸(Logistic Regression)、決策樹、森林分析心臟病患者
R語言樣條曲線、決策樹、Adaboost、梯度提升(GBM)算法進行回歸、分類和動態可視化
R語言用主成分PCA、 邏輯回歸、決策樹、隨機森林分析心臟病數據並高維可視化
matlab使用分位數隨機森林(QRF)回歸樹檢測異常值
R語言用邏輯回歸、決策樹和隨機森林對信貸數據集進行分類預測
R語言中使用線性模型、回歸決策樹自動組合特徵因子水平
R語言中自編基尼係數的CART回歸決策樹的實現
Python對商店數據進行lstm和xgboost銷售量時間序列建模預測分析
R語言基於樹的方法:決策樹,隨機森林,Bagging,增強樹
R語言實現偏最小二乘回歸法 partial least squares (PLS)回歸
R語言多項式回歸擬合非線性關係
R語言邏輯回歸(Logistic回歸)模型分類預測病人冠心病風險
R語言用局部加權回歸(Lowess)對logistic邏輯回歸診斷和殘差分析
R語言混合效應邏輯回歸(mixed effects logistic)模型分析肺癌數據