全文連結：http://tecdat.cn/?p=30752

最近我們被客戶要求撰寫關於決策樹的研究報告，包括一些圖形和統計輸出。

如何通過方法有效的分析海量數據，並從其中找到有利的資訊已經成為一種趨勢

而決策樹算法是目前在進行數據分析時很常用的方法。本文將使用IBM SPSS Modeler進行實踐，介紹決策樹在空氣污染預測領域的實踐案例。

分類預測模型的構建流程，具體步驟如下：

（1）數據處理：審核數據，過濾掉含有缺失值的數據記錄。

（2）劃分數據集，訓練集70%，測試集30% 。

（3）構建模型時的參數設置。

（4）構建模型：構建C5.0模型。

（5）結果評估，用測試集數據運行得到的運行結果，對模型採用命中率評估兩個模型的預測效果。

加入表節點

讀取數據

添加「抽樣」節點

隨機抽取70%的樣本作為訓練集

「C5.0」節點

生成的決策樹模型，並對測試數據進行預測

得到測試數據的分類結果的準確度

預測分類結果

有88.1%的測試樣本的預測值和實際值相符。

並且得到如下的決策樹模型：

點擊標題查閱往期內容

數據分享|PYTHON用決策樹分類預測糖尿病和可視化實例

左右滑動查看更多

其中變量的重要性如下圖所示：

從結果可以看到，首要污染物類型與AQI、NO2還有O3等變量有關。其中AQI對首要污染物類型的結果具有最重要的影響。

C5.0是在C4.5的基礎上發展起來的。C5.0 算法是用信息增益（根節點的熵減去該拆分的熵）來度量拆分純度的。第一次拆分某一欄位，劃分出相對應的樣本子集。然後繼續拆分這些樣本子集，一般情況下使用的是另一欄位進行拆分，一直循環這樣一個過程，直到滿足拆分終止條件。最後，若生成的樹出現過度擬合的狀況，則要修剪那些缺乏價值的樣本子集。

點擊文末 「閱讀原文」

獲取全文完整代碼數據資料。

本文選自《IBM SPSS Modeler分類決策樹C5.0模型分析空氣污染物數據》。

點擊標題查閱往期內容

數據分享|Spss Modeler關聯規則Apriori模型、Carma算法分析超市顧客購買商品數據挖掘實例

數據分享|Python用Apriori算法關聯規則分析亞馬遜購買書籍關聯推薦客戶和網絡圖可視化

【視頻】關聯規則模型、Apriori算法及R語言挖掘商店交易數據與交互可視化|數據分享

R語言用關聯規則和聚類模型挖掘處方數據探索藥物配伍中的規律

用SPSS Modeler的Web複雜網絡對所有腧穴進行關聯規則分析

PYTHON在線零售數據關聯規則挖掘APRIORI算法數據可視化

R語言關聯規則模型(Apriori算法)挖掘雜貨店的交易數據與交互可視化

R語言關聯挖掘實例（購物籃分析）

python關聯規則學習：FP-Growth算法對藥品進行「菜籃子」分析

基於R的FP樹fp growth 關聯數據挖掘技術在煤礦隱患管理

python關聯規則學習：FP-Growth算法對藥品進行「菜籃子」分析

通過Python中的Apriori算法進行關聯規則挖掘

Python中的Apriori關聯算法-市場購物籃分析

R語言用關聯規則和聚類模型挖掘處方數據探索藥物配伍中的規律

在R語言中輕鬆創建關聯網絡

python主題建模可視化LDA和T-SNE交互式可視化

R語言時間序列數據指數平滑法分析交互式動態可視化

用R語言製作交互式圖表和地圖

如何用r語言製作交互可視化報告圖表

IBM SPSS Modeler分類決策樹C5.0模型分析空氣污染物數據|附代碼數據

全文連結：http://tecdat.cn/?p=30752

加入表節點

讀取數據

添加「抽樣」節點

「C5.0」節點

預測分類結果

SPSS用多元逐步回歸模型對上證指數預測、描述統計和相關分析可視化研究

數據報告分享|WEKA貝葉斯網絡挖掘學校在校人數影響因素數據分類模型

matlab使用長短期記憶（LSTM）神經網絡對序列數據進行分類|附代碼數據

R軟體文本挖掘分析服裝公司職位要求數據和分布地理可視化

R語言大學城咖啡店消費問卷調查報告：信度分析、主成分分析可視化

SAS邏輯回歸logistic在對鮑魚年齡識別中的應用可視化

R語言邏輯回歸logistic對ST股票風險建模分類分析混淆矩陣、ROC曲線可視化

【視頻】Copula算法原理和R語言股市收益率相依性可視化分析|附代碼數據

數據分享|AARRR模型淘寶用戶行為分析、電商銷售分析

SPSS modeler利用類神經網絡對茅台股價漲跌幅度進行預測

ARIMA模型，ARIMAX模型預測冰淇淋消費時間序列數據|附代碼數據

在r語言中使用GAM（廣義相加模型）進行電力負荷時間序列分析|附代碼數據

【專題】2023年全球製藥行業研究報告PDF合集分享（附原數據表）

【專題】中國仿生機器人產業全景報告PDF合集分享（附原數據表）

數據分享|R語言逐步回歸模型對電影票房、放映場數、觀影人數預測可視化

HAR-RV-J與遞歸神經網絡（RNN）混合模型預測和交易大型股票指數|附代碼數據

【專題】2023中國產業元宇宙趨勢研究報告PDF合集分享（附原數據表）

【專題】2023年中國社會辦口腔醫療企業報告PDF合集分享（附原數據表）

【專題】中國數字科技產業投資發展研究報告PDF合集分享（附原數據表）

MATLAB熱傳導方程模型最小二乘法模型、線性規劃對集成電路板爐溫優化

R語言機器學習方法分析二手車價格影響因素

基於ARIMA、SVM、隨機森林銷售的時間序列預測|附代碼數據

R語言Copula模型分析股票市場板塊相關性結構|附代碼數據

上海、國際新冠疫情數據分析可視化