全文連結:http://tecdat.cn/?p=29841
最近我們被客戶要求撰寫關於非參數估計的研究報告。在應用的設置中,我們經常遇到分類數據類型和連續數據類型的組合
熟悉傳統非參數核平滑方法的人會明白,這些方法假定基礎數據本質上是連續的,但事實往往並非如此。一種同時處理連續數據和分類數據存在的方法稱為「頻率」方法,其中數據被分解為對應於分類變量假設值的子集(「單元格」),然後才將密度或位置應用於每個單元格中剩餘的連續數據。
非參數頻率方法被廣泛認為是不令人滿意的,因為它們通常會導致使用樣品分裂引起的大量效率損失。
在本文中,我們通過許多經驗應用來說明R的使用。選擇每個應用程式是為了在應用的環境中突出顯示特定的計量經濟學方法。
非參數無條件PDF和 CDF估計
間歇泉是位於黃石國家公園的旅遊景點。這個包含 n = 272 次觀測的著名數據集由兩個變量組成,以分鐘為單位的噴發持續時間(以分鐘為單位)和等待下一次噴發的時間(以分鐘為單位)。公園服務使用此數據集來模擬預期持續時間,具體取決於自上次噴發以來經過的時間量。然而,對聯合分布進行建模本身就很有意義,並且核估計器很容易揭示聯合 PDF 和 CDF 的基本雙峰性質。在本例中,我們加載舊的間歇泉數據並計算密度和分布函數。結果如圖所示。請注意,在此示例中,我們一步進行帶寬選擇和估計
R> Ful <- npst(~ eruptions + waiting, data = fal)
R> summary(f.fful)
R> summary(Fhful)
以下代碼將生成圖。
R> plot(f.fthful
如果用參數模型(例如二元正態(對稱、單峰和單調遞減)來模擬這種密度,當然無法揭示核估計容易揭示的底層結構。
圖 :Old Faithful 數據的非參數多變量 PDF 和 CDF 估計值。
點擊標題查閱往期內容
R語言非參數方法:使用核回歸平滑估計和K-NN(K近鄰算法)分類預測心臟病數據
左右滑動查看更多
01
02
03
04
非參數條件PDF和CDF估計
我們考慮GDP增長,涵蓋1951-1998年期間的21個地區。總共有n = 1008個觀測值,以及兩個變量,GDP和年份。首先,我們計算帶寬。請注意,這可能需要一兩分鐘,具體取決於計算機的速度。我們覆蓋搜索方法的默認容差,因為目標函數表現良好(當然通常不要這樣做),然後我們計算。請注意,在本例中,我們一步進行帶寬選擇和估計。
R> fat <- npns(gdp ~ year,
+ tol = 0.1,
+ ftol = 0.1,
R> Fat <- npst(gdp ~ year,
+ tol = 0.1,
+ ftol = 0.1,
圖繪製了 GDP 面板生成的條件 PDF 和 CDF。以下代碼將生成圖 。
R> plot
圖顯示,收入分配已從1950年代初的單峰分配演變為1990年代的明顯雙峰分配。此結果對帶寬選擇具有魯棒性,無論是使用簡單的經驗法則還是數據驅動的方法(如可能叉驗證)都可以觀察到。核方法很容易揭示這種演變,如果使用收入分配的參數模型(例如,單峰對數正態分布通常用於模擬收入分配),則很容易被忽略。
非參數分位數回歸
我們再次考慮GDP增長數據。首先,我們計算交叉驗證帶寬的可能性(默認)。我們覆蓋了搜索方法的默認容差,因為目標函數表現良好(當然,通常不要這樣做)。然後我們使用Li和Racine(2008)的方法計算結果的條件分位數估計。例如,我們計算第 25、50 和 75 條件分位數。請注意,這可能需要一兩分鐘,具體取決於計算機的速度。請注意,對於此示例,我們首先以避免不必要的帶寬對象重新計算。
R> bw <- npbw(formula = gdp ~ year,
+ tol = 0.1,
+ ftol = 0.1,
R> modq0.25 <- nptau = 0.25)
R> mo.q0.50 <- nbw, tau = 0.50)
R> mod.q0.75 <- npq, tau = 0.75)
圖繪製了生成的分位數估計值。以下代碼將生成圖。
R> plot
R> lines(It$year, mode.q0.25quantile )
此應用程式的一個很好的功能是解釋變量是有序的,並且每年存在多個觀測值。將繪圖函數與有序數據一起使用會生成一個箱線圖,該箱線圖很容易顯示非平滑的第 25、50 和 75 個分位數。然後可以直接將這些非平滑分位數估計值與通過直接估計平滑CDF獲得的估計值進行比較,如圖所示。
GDP 面板上的非參數分位數回歸。
參考文獻
Aitchison J, Aitken CGG (1976).「核方法的多元二元判別。」生物計量學,63(3),413-420。
Baiocchi G (2006). 「Economic Applications of Nonparametric Methods.」 Ph.d. thesis, University of York
點擊文末 「閱讀原文」
獲取全文完整代碼數據資料。
本文選自《R語言非參數PDF和CDF估計、非參數分位數回歸分析間歇泉、GDP增長數據》。
點擊標題查閱往期內容
matlab使用分位數隨機森林(QRF)回歸樹檢測異常值
邏輯回歸、隨機森林、SVM支持向量機預測心臟病風險數據和模型診斷可視化|數據分享
貝葉斯分位數回歸、lasso和自適應lasso貝葉斯分位數回歸分析免疫球蛋白、前列腺癌數據
用加性多元線性回歸、隨機森林、彈性網絡模型預測鮑魚年齡和可視化
PYTHON用戶流失數據挖掘:建立邏輯回歸、XGBOOST、隨機森林、決策樹、支持向量機、樸素貝葉斯和KMEANS聚類用戶畫像
PYTHON集成機器學習:用ADABOOST、決策樹、邏輯回歸集成模型分類和回歸和網格搜索超參數優化
R語言集成模型:提升樹boosting、隨機森林、約束最小二乘法加權平均模型融合分析時間序列數據
Python對商店數據進行lstm和xgboost銷售量時間序列建模預測分析
R語言用主成分PCA、 邏輯回歸、決策樹、隨機森林分析心臟病數據並高維可視化
R語言基於樹的方法:決策樹,隨機森林,Bagging,增強樹
R語言用邏輯回歸、決策樹和隨機森林對信貸數據集進行分類預測
spss modeler用決策樹神經網絡預測ST的股票
R語言中使用線性模型、回歸決策樹自動組合特徵因子水平
R語言中自編基尼係數的CART回歸決策樹的實現
R語言用rle,svm和rpart決策樹進行時間序列預測
python在Scikit-learn中用決策樹和隨機森林預測NBA獲勝者
python中使用scikit-learn和pandas決策樹進行iris鳶尾花數據分類建模和交叉驗證
R語言里的非線性模型:多項式回歸、局部樣條、平滑樣條、 廣義相加模型GAM分析
R語言用標準最小二乘OLS,廣義相加模型GAM ,樣條函數進行邏輯回歸LOGISTIC分類
R語言ISLR工資數據進行多項式回歸和樣條回歸分析
R語言中的多項式回歸、局部回歸、核平滑和平滑樣條回歸模型
R語言用泊松Poisson回歸、GAM樣條曲線模型預測騎自行車者的數量
R語言分位數回歸、GAM樣條曲線、指數平滑和SARIMA對電力負荷時間序列預測R語言樣條曲線、決策樹、Adaboost、梯度提升(GBM)算法進行回歸、分類和動態可視化
如何用R語言在機器學習中建立集成模型?
R語言ARMA-EGARCH模型、集成預測算法對SPX實際波動率進行預測在python 深度學習Keras中計算神經網絡集成模型R語言ARIMA集成模型預測時間序列分析R語言基於Bagging分類的邏輯回歸(Logistic Regression)、決策樹、森林分析心臟病患者
R語言基於樹的方法:決策樹,隨機森林,Bagging,增強樹
R語言基於Bootstrap的線性回歸預測置信區間估計方法
R語言使用bootstrap和增量法計算廣義線性模型(GLM)預測置信區間
R語言樣條曲線、決策樹、Adaboost、梯度提升(GBM)算法進行回歸、分類和動態可視化
Python對商店數據進行lstm和xgboost銷售量時間序列建模預測分析
R語言隨機森林RandomForest、邏輯回歸Logisitc預測心臟病數據和可視化分析
R語言用主成分PCA、 邏輯回歸、決策樹、隨機森林分析心臟病數據並高維可視化
Matlab建立SVM,KNN和樸素貝葉斯模型分類繪製ROC曲線
matlab使用分位數隨機森林(QRF)回歸樹檢測異常值