全文連結:http://tecdat.cn/?p=32150
最近我們被客戶要求撰寫關於Apriori關聯規則的研究報告,包括一些圖形和統計輸出。
隨著大數據時代的來臨,如何從海量的存儲數據中發現有價值的信息或知識幫助用戶更好決策是一項非常艱巨的任務 ( 點擊文末「閱讀原文」獲取完整代碼數據******** )。
數據挖掘正是為了滿足此種需求而迅速發展起來的,它是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過程。由於大數據技術的發展,零售企業可以利用網際網路收集大量的銷售數據,這些數據是一條條的購買事務信息,每條信息存儲了銷售事務的處理時間,顧客所購買的商品、各種商品的數量以及價格等。如果對這些歷史數據進行分析,則可以對理解分析顧客的購買行為提供有價值的信息。
數據建模
數據來源
本次分析的數據來自電商網站交易數據文件 ( 查看文末了解數據免費獲取方式 ) 。
指標選取
本次分析一共選取了17個指標600個樣本,分別是:ID號、平均購物額度、購物總次數、交易成功次數、信用等級、購物積分。
指標介紹
(1)ID號:購網網站上的網購客戶ID ;
(2)平均購物額度:網購客戶平均的網購服務的金額;
(3)購物總次數:網購客戶的每個月購物次數;
(4)交易成功次數:網購客戶的交易成功次數;
(5)信用等級:網購客戶的購物信用等級;
(6)購物積分:網購客戶購物的積分;
(7)Pincome:個人年收入(萬元)
(8)Hincome:家庭年收入(萬元)
(9)Age:年齡
(10)Gender:性別(0:女;1:男)
(11)Car:家庭擁有汽車的數量
(12)Education:教育水平(1:初中及以下;2:高中;3:專科;4:本科;5:研究生)
(13)Job:工作類型(1:公司職員;2:工廠工人;3:公務員;4:個體;5:事業單位;6:其他)
(14)People:家裡人口數量
(15)Children:家裡未成年人數量
(16)Housing:房屋擁有類型(0:租房;1:買房)
(17)Area:房屋居住面積(平方米)
數據審核
由上表,可得:本次分析的數據都是有效的,不存在缺失值。
點擊標題查閱往期內容
R語言APRIORI關聯規則、K-MEANS均值聚類分析中藥專利復方治療用藥規律網絡可視化
左右滑動查看更多
01
02
03
04
描述性統計量
由上表,可得:月服務、年齡、居住時間、收入、工作時間、家庭人數、長途距離、免費通信這8個變量的均值分別為:35.526、41.684、11.551、77.535、10.987、2.331、11.723、13.274,可以看出這8個連續性變量不存在量綱上的差異,因此在後面的分析中,不需要進行標準化處理。同時,這8個變量之間存在較強的線性相關性,說明變量之間存在嚴重的多重共線性,可以考慮對變量進行降維後在進行分析。
數據歸一化
在進行分類之前,為消除量綱的差別,首先對屬性進行歸一化處理。
Weka數據挖掘流程
數據挖掘一般是指從資料庫的大量數據中揭示出隱含的、先前未知的並有潛在價值的信息的非平凡過程,是一種決策支持過程。它實現的過程大致可分為:問題定義、數據收集和預處理、數據挖掘、算法執行,以及結果的分析和評估。
(1)問題定義
數據挖掘的目的是從海里數據中挖掘有效信息,幫助用戶更好決策。因此,在數據挖掘之前需定義明確的挖掘目標,明確數據挖掘目的。
(2)數據收集和數據預處理
數據準備又可分為三個子步驟:數據收集、數據預處理和數據變換。數據收集是指收集所有與挖掘業務對象相關的外部和內部數據,從獲取的原始數據中,選擇出需要挖掘的信息數據,建立挖掘原始資料庫。在建立的挖掘原始資料庫中,其數據可能是不完全的、有噪聲的、隨機的、複雜的,數據預處理數據就要對數據進行過濾,清洗掉不完全的、有噪聲的數據,為下一步的分析工作做準備。數據轉換是指格式化數據,並將其加載到適合分析的存儲環境中,形成最終的挖掘資料庫。
(3)數據挖掘
算法執行階段主要根據對問題的定義明確挖掘的任務或目的,數據挖掘是指選擇合適的挖掘算法,對轉換過的資料庫進行有效挖掘,此階段選好挖掘算法是關鍵。
(4)結果分析和評估
數據挖掘階段發現的模式,經過評估,可能存在冗餘或無關的模式,這時需要剔除;模式也有可能不滿足用戶要求,這時則需要整個發現過程回退到前一個階段,如重新選取數據、採用新的數據變換方法、設定新的參數值,甚至換一種算法等。
模型的實際應用
研究數據說明
本文數據來源於平台後台資料庫中歷史交易信息,包括網購相關信息以及網購用戶信息等。
經過數據篩選梳理,最終研究的樣本包括999條網購列表。其中,248審核未通過的有條;209條是網購放棄;542條成功網購,169條已還完網購。成功交易總額達3090.93萬元。
網購用戶關聯規則算法分析設計
本文分別用Apriori算法對數據進行處理挖掘,具體結果如下所示。
(1)Apriori算法
雖然 Apriori 算法可以直接挖掘生成表中的交易數據集,但是為了關聯挖掘其他算法的需要先把交易數據集轉換成分析數據集,構建的數據流程圖如圖 1 所示。
圖 1 商品關聯規則 Apriori 算法挖掘流圖
關聯規則模型Apriori模型參數設置
通過格式轉換, 設最低條件支持度為15%,最小規則置信度為30%,最大前項數為5,選擇專家模式,挖掘出最有價值的10條關聯規則,如圖所示。生成的10條規則如下所示:
1. 交易成功次數=1 469 ==> 購物總次數=1 465
2. 交易成功次數=1 房屋狀況=1 423 ==> 購物總次數=1 419
3. 是否有小孩=1 房屋狀況=1 365 ==> 購物總次數=1 345
4. 是否有小孩=1 397 ==> 購物總次數=1 375
5. 房屋狀況=1 545 ==> 購物總次數=1 508
6. 購物總次數=1 是否有小孩=1 375 ==> 房屋狀況=1 345
7. 是否有小孩=1 397 ==> 房屋狀況=1 365
8. 購物總次數=1 560 ==> 房屋狀況=1 508
9. 交易成功次數=1 469 ==> 房屋狀況=1 423
10. 購物總次數=1 交易成功次數=1 465 ==> 房屋狀況=1 419
分析及建議: 通過結果可以清晰的看到交易次數較多的顧客購物成功次數比較多,另外是否有小孩、是否有房屋對顧客是否購物成功次數也有關聯,建議網站可以加大對這些用戶的推薦購買力度,由上述結果可知,同時購物且成功的用戶占總用戶的的90%,有房屋的用戶成功購物分別占總訂單數的91%,有小孩的人有91%會網購, 房屋面積越大,網購次數越高,由此可見,房屋、網購、是否有小孩、網購成功次數這幾個變量關聯度較高,可以對這些用戶進行廣告策略投放,從而增加用戶網購的成功率。
Associator Model
Apriori
=======
Minimum support: 0.55 (330 instances)
Minimum metric
Number of cycles performed: 9
Generated sets of large itemsets:
Size of set of large itemsets L(1): 4
Size of set of large itemsets L(2): 5
Size of set of large itemsets L(3): 2
結論與展望
數據挖掘中的關聯規則側重於不同對象之間的聯繫,本文討論了關聯規則挖掘在用戶網購策略中的應用。利用WEKA軟體,通過實例分析了頻繁項集及關聯規則生成的過程,採用Apriori算法對數據分別進行了解析挖掘,針對挖掘結果提出了相應的建議,對電商網站的發展有著到重要的現實的意義。
數據獲取
在公眾號後台回復「網購數據」,可免費獲取完整數據。
本文中分析的數據和完整文檔分享到會員群,掃描下面二維碼即可加群!
點擊文末 「閱讀原文」
獲取全文完整代碼數據資料。
本文選自《數據分享|Weka數據挖掘Apriori關聯規則算法分析用戶網購數據》。
點擊標題查閱往期內容
SQL SERVER ANALYSIS SERVICES決策樹、聚類、關聯規則挖掘分析電商購物網站的用戶行為數據
Python對商店數據進行lstm和xgboost銷售量時間序列建模預測分析
PYTHON集成機器學習:用ADABOOST、決策樹、邏輯回歸集成模型分類和回歸和網格搜索超參數優化
R語言集成模型:提升樹boosting、隨機森林、約束最小二乘法加權平均模型融合分析時間序列數據
Python對商店數據進行lstm和xgboost銷售量時間序列建模預測分析
R語言用主成分PCA、 邏輯回歸、決策樹、隨機森林分析心臟病數據並高維可視化
R語言基於樹的方法:決策樹,隨機森林,Bagging,增強樹
R語言用邏輯回歸、決策樹和隨機森林對信貸數據集進行分類預測
spss modeler用決策樹神經網絡預測ST的股票
R語言中使用線性模型、回歸決策樹自動組合特徵因子水平
R語言中自編基尼係數的CART回歸決策樹的實現
R語言用rle,svm和rpart決策樹進行時間序列預測
python在Scikit-learn中用決策樹和隨機森林預測NBA獲勝者
python中使用scikit-learn和pandas決策樹進行iris鳶尾花數據分類建模和交叉驗證
R語言里的非線性模型:多項式回歸、局部樣條、平滑樣條、 廣義相加模型GAM分析
R語言用標準最小二乘OLS,廣義相加模型GAM ,樣條函數進行邏輯回歸LOGISTIC分類
R語言ISLR工資數據進行多項式回歸和樣條回歸分析
R語言中的多項式回歸、局部回歸、核平滑和平滑樣條回歸模型
R語言用泊松Poisson回歸、GAM樣條曲線模型預測騎自行車者的數量
R語言分位數回歸、GAM樣條曲線、指數平滑和SARIMA對電力負荷時間序列預測R語言樣條曲線、決策樹、Adaboost、梯度提升(GBM)算法進行回歸、分類和動態可視化
如何用R語言在機器學習中建立集成模型?
R語言ARMA-EGARCH模型、集成預測算法對SPX實際波動率進行預測在python 深度學習Keras中計算神經網絡集成模型R語言ARIMA集成模型預測時間序列分析R語言基於Bagging分類的邏輯回歸(Logistic Regression)、決策樹、森林分析心臟病患者
R語言基於樹的方法:決策樹,隨機森林,Bagging,增強樹
R語言基於Bootstrap的線性回歸預測置信區間估計方法
R語言使用bootstrap和增量法計算廣義線性模型(GLM)預測置信區間
R語言樣條曲線、決策樹、Adaboost、梯度提升(GBM)算法進行回歸、分類和動態可視化
Python對商店數據進行lstm和xgboost銷售量時間序列建模預測分析
R語言隨機森林RandomForest、邏輯回歸Logisitc預測心臟病數據和可視化分析
R語言用主成分PCA、 邏輯回歸、決策樹、隨機森林分析心臟病數據並高維可視化
Matlab建立SVM,KNN和樸素貝葉斯模型分類繪製ROC曲線
matlab使用分位數隨機森林(QRF)回歸樹檢測異常值