全文連結:http://tecdat.cn/?p=30752
最近我們被客戶要求撰寫關於決策樹的研究報告,包括一些圖形和統計輸出。
如何通過方法有效的分析海量數據,並從其中找到有利的資訊已經成為一種趨勢
而決策樹算法是目前在進行數據分析時很常用的方法。本文將使用IBM SPSS Modeler進行實踐,介紹決策樹在空氣污染預測領域的實踐案例。
分類預測模型的構建流程,具體步驟如下:
(1)數據處理 :審核數據,過濾掉含有缺失值的數據記錄。
(2)劃分數據集,訓練集70%,測試集30% 。
(3)構建模型時的參數設置 。
(4)構建模型:構建C5.0模型。
(5)結果評估,用測試集數據運行得到的運行結果,對模型採用命中率評估兩個模型的預測效果。
加入表節點
讀取數據
添加「抽樣」節點
隨機抽取70%的樣本作為訓練集
「C5.0」節點
生成的決策樹模型,並對測試數據進行預測
得到測試數據的分類結果的準確度
預測分類結果
有88.1%的測試樣本的預測值和實際值相符。
並且得到如下的決策樹模型:
點擊標題查閱往期內容
數據分享|PYTHON用決策樹分類預測糖尿病和可視化實例
左右滑動查看更多
01
02
03
04
其中變量的重要性如下圖所示:
從結果可以看到,首要污染物類型與AQI、NO2還有O3等變量有關。其中AQI對首要污染物類型的結果具有最重要的影響。
C5.0是在C4.5的基礎上發展起來的。C5.0 算法是用信息增益(根節點的熵減去該拆分的熵)來度量拆分純度的。第一次拆分某一欄位,劃分出相對應的樣本子集。然後繼續拆分這些樣本子集,一般情況下使用的是另一欄位進行拆分,一直循環這樣一個過程,直到滿足拆分終止條件。最後,若生成的樹出現過度擬合的狀況,則要修剪那些缺乏價值的樣本子集。
點擊文末 「閱讀原文」
獲取全文完整代碼數據資料。
本文選自《IBM SPSS Modeler分類決策樹C5.0模型分析空氣污染物數據》。
點擊標題查閱往期內容
數據分享|Spss Modeler關聯規則Apriori模型、Carma算法分析超市顧客購買商品數據挖掘實例
數據分享|Python用Apriori算法關聯規則分析亞馬遜購買書籍關聯推薦客戶和網絡圖可視化
【視頻】關聯規則模型、Apriori算法及R語言挖掘商店交易數據與交互可視化|數據分享
R語言用關聯規則和聚類模型挖掘處方數據探索藥物配伍中的規律
用SPSS Modeler的Web複雜網絡對所有腧穴進行關聯規則分析
PYTHON在線零售數據關聯規則挖掘APRIORI算法數據可視化
R語言關聯規則模型(Apriori算法)挖掘雜貨店的交易數據與交互可視化
R語言關聯挖掘實例(購物籃分析)
python關聯規則學習:FP-Growth算法對藥品進行「菜籃子」分析
基於R的FP樹fp growth 關聯數據挖掘技術在煤礦隱患管理
python關聯規則學習:FP-Growth算法對藥品進行「菜籃子」分析
通過Python中的Apriori算法進行關聯規則挖掘
Python中的Apriori關聯算法-市場購物籃分析
R語言用關聯規則和聚類模型挖掘處方數據探索藥物配伍中的規律
在R語言中輕鬆創建關聯網絡
python主題建模可視化LDA和T-SNE交互式可視化
R語言時間序列數據指數平滑法分析交互式動態可視化
用R語言製作交互式圖表和地圖
如何用r語言製作交互可視化報告圖表