R語言關聯規則挖掘apriori算法挖掘評估汽車性能數據

2023-04-10     tecdat拓端

原標題:R語言關聯規則挖掘apriori算法挖掘評估汽車性能數據

全文連結:http://tecdat.cn/?p=32092

原文出處:拓端數據部落公眾號

我們一般把一件事情發生,對另一件事情也會產生影響的關係叫做關聯。而關聯分析就是在大量數據中發現項集之間有趣的關聯和相關聯繫(形如「由於某些事件的發生而引起另外一些事件的發生」)。 我們的生活中有許多關聯,一個典型例子是購物籃分析。該過程通過發現顧客放入其購物籃中的不同商品之間的聯繫,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關聯的發現可以幫助零售商制定營銷策略。其他的應用還包括價目表設計、商品促銷、商品的排放和基於購買模式的顧客劃分。

本文運用Apriori算法幫助客戶對汽車性能相關數據進行數據挖掘,探索變量間的關聯性。為汽車廠商分類汽車性能提供參考。

汽車性能數據

這個數據模型用於評估車的性能方面的好壞。該數據主要包含一些車的技術性和價格等變量。

數據變量介紹

數據描述2種類型的列車。變量包括:

  • 汽車可接受的價格
  • 買入價格
  • 維護價格
  • 技術特點
  • 舒適度
  • 車門數
  • 攜帶能力
  • 行李箱
  • 汽車的安全性

所有的變量為分類變量,值為好,一般,較差。

最後的分類屬性為車的總體分類:分為4個類型:好,較好,一般和較差。

數據分析框架

本文使用關聯規則挖掘apriori算法來發現車的性能價格等屬性的常見模式和規則:

1 數據預處理:包括讀取數據,清理缺失數據,將數據轉化成關聯挖掘數據類型。

2 查看頻繁項集,發現合適的支持度和置信度閾值用於後續的關聯規則挖掘。

3 查看關聯規則挖掘結果,發現有價值的規則。

具體數據分析過程

讀取數據

表原始數據

查看數據,V1-V7為相應的屬性。下面的值分別代表車中設備的數量和性能的好壞。

首先以最小支持度為0.05來挖掘出叫頻繁出現的規則:

表 頻繁規則

可以發現,V4,V7,V5這些屬性在數據集中是經常出現的變量。同時可以看到他們的屬性值。

於是我們找到最頻繁出現的前十個集合(頻繁項集):

表 前十個頻繁項集

可以看到V7也就是價格是不可接受的車達到了70%左右。其次是V7為unacc和V6為low的車輛集合,也就是價格難以接受和安全性能低的車輛。

進行 Apriori 關聯規則 模型的擬合

通過上面的判斷,我們將支持度設置為0.1也就是10-%左右,用於篩選出較頻繁的規則。

於是進行關聯規則挖掘:

表 規則概要

通過查看模型概要,我們可以發現得到了20條規則,其中規則長度1的有1條,2的有8條,3的有11條。

查看規則:

表 規則數據

以及規則的支持度置信度和提高度。

表 規則質量

可以看到每條規則的質量。比如前6條規則,我們可以看到當車的購入價格很高時,大部分消費者認為不能接受這部車。或者當車的維護費用很高時,購買者也不能接受。

或者當車是兩個門的時候,一般該車是跑車或者設計特殊,這是人們也會不能接受購買這部車,也許因為它的價格因素。

圖 關聯規則模型結果

從圓圈的大小,我們可以判斷規則的支持度大小,從圓圈的顏色深淺我們可以判斷該規則的置信度大小。

圖 關聯規則結果

從上面結果,我們可以看到20條規則的可視化結果,圓圈越大代表該規則的支持度越高,通過箭頭我們可以判斷其規則的前後推斷關係。

於是我們找到置信度和支持度最高的規則,作為最有價值的規則。

表 關聯規則有價值的結果

V6為車的安全性,V4為車的裝載人數,如果安全性差並且只能裝載2個人,消費者不會購買這輛車。因此車的安全性是一個是否購買車的重要的影響因素。

數據分析結論

從分析的結果可以看到,關聯規則的模型效果在該數據集上效果較好,同時得到了一些有價值的規則,比如人們在購買車輛時主要會考慮車的價格因素,以及他的維護費用,這些因素會影響人們是否購買車輛,其中,人們也十分關心車輛的安全性能和裝載性能,當車性能不安全的話,人們很難接受,甚至該因素的影響會超過價格的因素。通過這些規則我們可以對車輛提出一些營銷策略。

最受歡迎的見解

1.Python中的Apriori關聯算法-市場購物籃分析

2.R語言繪製生存曲線估計|生存分析|如何R作生存曲線圖

3.用關聯規則數據挖掘探索藥物配伍中的規律

4.通過Python中的Apriori算法進行關聯規則挖掘

5.用關聯規則數據挖掘探索藥物配伍中的規律

6.採用SPSS Modeler的Web複雜網絡對所有腧穴進行分析

7.R語言如何在生存分析與COX回歸中計算IDI,NRI指標

8.R語言如何找到患者數據中具有差異的指標?(PLS—DA分析)

9.R語言中的生存分析Survival analysis晚期肺癌患者4例

文章來源: https://twgreatdaily.com/zh-my/2ef0a6f8ffe15412169d2ed2664ff080.html