IBM SPSS Modeler分類決策樹C5.0模型分析空氣污染物數據|附代碼數據

2023-01-18     tecdat拓端

原標題:IBM SPSS Modeler分類決策樹C5.0模型分析空氣污染物數據|附代碼數據

全文連結:http://tecdat.cn/?p=30752

最近我們被客戶要求撰寫關於決策樹的研究報告,包括一些圖形和統計輸出。

如何通過方法有效的分析海量數據,並從其中找到有利的資訊已經成為一種趨勢

而決策樹算法是目前在進行數據分析時很常用的方法。本文將使用IBM SPSS Modeler進行實踐,介紹決策樹在空氣污染預測領域的實踐案例。

分類預測模型的構建流程,具體步驟如下:

(1)數據處理 :審核數據,過濾掉含有缺失值的數據記錄。

(2)劃分數據集,訓練集70%,測試集30% 。

(3)構建模型時的參數設置 。

(4)構建模型:構建C5.0模型。

(5)結果評估,用測試集數據運行得到的運行結果,對模型採用命中率評估兩個模型的預測效果。

加入表節點

讀取數據

添加「抽樣」節點

隨機抽取70%的樣本作為訓練集

「C5.0」節點

生成的決策樹模型,並對測試數據進行預測

得到測試數據的分類結果的準確度

預測分類結果

有88.1%的測試樣本的預測值和實際值相符。

並且得到如下的決策樹模型:

點擊標題查閱往期內容

數據分享|PYTHON用決策樹分類預測糖尿病和可視化實例

左右滑動查看更多

01

02

03

04

其中變量的重要性如下圖所示:

從結果可以看到,首要污染物類型與AQI、NO2還有O3等變量有關。其中AQI對首要污染物類型的結果具有最重要的影響。

C5.0是在C4.5的基礎上發展起來的。C5.0 算法是用信息增益(根節點的熵減去該拆分的熵)來度量拆分純度的。第一次拆分某一欄位,劃分出相對應的樣本子集。然後繼續拆分這些樣本子集,一般情況下使用的是另一欄位進行拆分,一直循環這樣一個過程,直到滿足拆分終止條件。最後,若生成的樹出現過度擬合的狀況,則要修剪那些缺乏價值的樣本子集。

點擊文末 「閱讀原文」

獲取全文完整代碼數據資料。

本文選自《IBM SPSS Modeler分類決策樹C5.0模型分析空氣污染物數據》。

點擊標題查閱往期內容

數據分享|Spss Modeler關聯規則Apriori模型、Carma算法分析超市顧客購買商品數據挖掘實例

數據分享|Python用Apriori算法關聯規則分析亞馬遜購買書籍關聯推薦客戶和網絡圖可視化

【視頻】關聯規則模型、Apriori算法及R語言挖掘商店交易數據與交互可視化|數據分享

R語言用關聯規則和聚類模型挖掘處方數據探索藥物配伍中的規律

用SPSS Modeler的Web複雜網絡對所有腧穴進行關聯規則分析

PYTHON在線零售數據關聯規則挖掘APRIORI算法數據可視化

R語言關聯規則模型(Apriori算法)挖掘雜貨店的交易數據與交互可視化

R語言關聯挖掘實例(購物籃分析)

python關聯規則學習:FP-Growth算法對藥品進行「菜籃子」分析

基於R的FP樹fp growth 關聯數據挖掘技術在煤礦隱患管理

python關聯規則學習:FP-Growth算法對藥品進行「菜籃子」分析

通過Python中的Apriori算法進行關聯規則挖掘

Python中的Apriori關聯算法-市場購物籃分析

R語言用關聯規則和聚類模型挖掘處方數據探索藥物配伍中的規律

在R語言中輕鬆創建關聯網絡

python主題建模可視化LDA和T-SNE交互式可視化

R語言時間序列數據指數平滑法分析交互式動態可視化

用R語言製作交互式圖表和地圖

如何用r語言製作交互可視化報告圖表

文章來源: https://twgreatdaily.com/8ff87a7ec5ad71c47babdb9e3d52c745.html