原文連結:https://tecdat.cn/?p=34238
原文出處:拓端數據部落公眾號
分析師:Siming Yan
比較多種機器學習方法優劣性,分析二手車價格影響因素,訓練模型預測二手車價格。
任務 / 目標
根據印度二手車交易市場1996-2019年數據,進行清洗,建模,預測。
數據源準備
7253筆交易數據包括汽車屬性和交易日期、地點等信息。分析數據構成:
將數據分為NA和非NA組,分析缺失值是否均勻分布:
對於的因變量「交易價格」,可見其缺失值基本均勻分布。
其他自變量的缺失值也基本均勻分布。
特徵轉換
對一些因變量進行dummy variable轉換。對大數值變量如引擎容量,已行駛的公里數進行log transformation。
劃分訓練集和測試集
75% training data, 25 test data. RMSE作為衡量模型精度的標準。
建模
10 folds Validation when training models to choose best model tuning parameters .
1. Linear Regression with mixing Lasso & Ridge Penalty:
包含三種模型的混合預測。
Best tune: Alpha 0.25, lambda .053. RMSE 5.332
1. Support Vector Machines with Radial Basis Function Kernel
Best tune: Cost(M) = 10.
1. Random Forests:
隨著隨機選定的因變量數量提高,10 folds Cross Validation所展示的擬合效果也有波折地逐漸提高。
1. Stochastic Gradient Boosting Machine
調整的參數為樹深,樹層數達到6時擬合效果最好。
模型優化
各個模型都進行了調參過程。主要依據為10 folds cross validation
結果
在此案例中,Stochastic Gradient Boosting Machine 所得到的RMSE值最小,預測效果最好。
預測結果僅作為參考一個權重值,還需要專家意見,按照一定的權重來計算。
以下為預測集和測試集的部分展示: