R語言機器學習方法分析二手車價格影響因素

2023-11-11     tecdat拓端

原文連結:https://tecdat.cn/?p=34238

原文出處:拓端數據部落公眾號

分析師:Siming Yan

比較多種機器學習方法優劣性,分析二手車價格影響因素,訓練模型預測二手車價格。

任務 / 目標

根據印度二手車交易市場1996-2019年數據,進行清洗,建模,預測。

數據源準備

7253筆交易數據包括汽車屬性和交易日期、地點等信息。分析數據構成:

將數據分為NA和非NA組,分析缺失值是否均勻分布:

對於的因變量「交易價格」,可見其缺失值基本均勻分布。

其他自變量的缺失值也基本均勻分布。

特徵轉換

對一些因變量進行dummy variable轉換。對大數值變量如引擎容量,已行駛的公里數進行log transformation。

劃分訓練集和測試集

75% training data, 25 test data. RMSE作為衡量模型精度的標準。

建模

10 folds Validation when training models to choose best model tuning parameters .

1. Linear Regression with mixing Lasso & Ridge Penalty:

包含三種模型的混合預測。

Best tune: Alpha 0.25, lambda .053. RMSE 5.332

1. Support Vector Machines with Radial Basis Function Kernel

Best tune: Cost(M) = 10.

1. Random Forests:

隨著隨機選定的因變量數量提高,10 folds Cross Validation所展示的擬合效果也有波折地逐漸提高。

1. Stochastic Gradient Boosting Machine

調整的參數為樹深,樹層數達到6時擬合效果最好。

模型優化

各個模型都進行了調參過程。主要依據為10 folds cross validation

結果

在此案例中,Stochastic Gradient Boosting Machine 所得到的RMSE值最小,預測效果最好。

預測結果僅作為參考一個權重值,還需要專家意見,按照一定的權重來計算。

以下為預測集和測試集的部分展示:

關於分析師

在此對Siming Yan對本文所作的貢獻表示誠摯感謝,他專注數據採集,數據分析,機器學習領域。擅長R語言、Python、SQL、Tableau。

文章來源: https://twgreatdaily.com/zh-cn/6864b072e9c22a2d01ddc4e91626de70.html