全文連結:http://tecdat.cn/?p=31445
原文出處:拓端數據部落公眾號
機器學習在環境監測領域的應用,著眼於探索全球範圍內的環境演化規律,人類與自然生態之間的關係以及環境變化對人類生存的影響。
課題著眼於環境科學中的近年來土地面積變化影響的課題,應用機器學習的方法,進行數據處理與分析預測。數據的處理方法以及機器學習本身算法理論的學習和代碼實現在各領域具有相同性,之後同學可以在其他感興趣的領域結合數據進行分析,利用此課題所學知識舉一反三。
本文獲取了近年來全球各國土地面積變化數據:
區域或局地尺度的氣候變化影響研究需要對氣候模式輸出或再分析資料進行降尺度以獲得更細解析度的氣候資料。
本文通過PCA主成分、lasso、嶺回歸對數據進行降維分析,既能起到對相關的預報因子限制的作用保證了預測結果的穩定性,又不至於掩蓋預報因子的貢獻以至於喪失模型預測的準確性。
讀取數據
data=read.csv("E:/climate_change_download_0 (1).csv")
data=na.omit(data)
# data[which(data=="..")]=0
x=data[,c(7:ncol(data))]
x[which(x=="..",arr.ind = T)]=0
數據清洗
x=data.frame(x)
for(j in 1:ncol(x))x[,j]=as.numeric(x[,j])
主成分分析
pca <- x %*% v[,1:2]
scores <- X %*% loadings
biplot(scores[,1:2], loadings[,1:2], xlab=rownames(scores),
發現最優主成分數
lasso 模型
對數據進行lasso模型篩選變量
轉換數據類型
for(i in 1:ncol(X))X[,i]=as.numeric(X[,i])
找出有強影響的變量
summary(laa)
## LARS/LAR
## Call: lars(x = X, y = Y, type = "lar")
## Df Rss Cp
## 0 1 6505.0 2041.608
## 1 2 6472.4 2000.730
## 2 3 6411.9 1923.292
## 3 4 6056.4 1458.310
## 4 5 6044.3 1444.434
## 5 6 6010.9 1402.454
## 6 7 5660.6 944.328
## 7 8 5594.1 858.944
## 8 9 5334.2 519.497
使用嶺回歸方法排除回歸模型中的多重共線性是有必要的。在對嶺回歸模型參數α的確定過程中,經過對多站點多個月份的試驗,本文認為在使用嶺回歸模型進行統計降尺度時將df設置為17時,cp值最小,因此我們選擇1999-2006年的數據較為合理,既能起到對相關的預報因子限制的作用保證了預測結果的穩定性,又不至於掩蓋預報因子的貢獻以至於喪失模型預測的準確性。
使用ridge regression回歸模型
plot(lm.rid
選擇GCV為100,帶入嶺回歸模型的lambda中
使用嶺回歸方法排除回歸模型中的多重共線性是有必要的。在對嶺回歸模型參數α的確定過程中,經過對多站點多個月份的試驗,本文認為在使用嶺回歸模型對地區土地面積進行統計尺度時將GCV設置為100較為合理,當α過小時,正則項起不到作用,回歸模型各項係數分散,此時模型如普通最小二乘多元回歸模型,出現過擬合現象,預測結果不穩定;當α過大時,模型各項係數收斂到一處,出現欠擬合現象,預測結果不準確;而當α合理確定時,平衡了模型的穩定性和準確性。
最受歡迎的見解
1.matlab偏最小二乘回歸(PLSR)和主成分回歸(PCR)
2.R語言高維數據的主成分pca、 t-SNE算法降維與可視化分析
3.主成分分析(PCA)基本原理及分析實例
4.R語言實現貝葉斯分位數回歸、lasso和自適應lasso貝葉斯分位數回歸
5.使用LASSO回歸預測股票收益數據分析
6.r語言中對lasso回歸,ridge嶺回歸和elastic-net模型
7.r語言中的偏最小二乘回歸pls-da數據分析
8.R語言用主成分PCA、 邏輯回歸、決策樹、隨機森林分析心臟病數據並高維可視化
9.R語言主成分分析(PCA)葡萄酒可視化:主成分得分散點圖和載荷圖