R語言基於逐步多元回歸模型的天貓商品流行度預測

2023-07-13 tecdat拓端

全文連結：https://tecdat.cn/?p=33212

原文出處：拓端數據部落公眾號

本文通過利用回歸模型對天貓商品流行度進行了研究，確定了決定天貓商品流行度的重要因素。並講述、論證了預測天貓商品流行度是天貓商品交易的至關重要的環節。通過對天貓商品流行度預測技術的發展和探討，深度剖析了天貓商品流行度預測這個研究課題。

一、天貓商品流行度預測發展簡介

本文使用的數據集為天貓商品數據集。它包含562個商品的屬性數據。每個商品包括4個屬性，具體的4個屬性如下：

該數據集有以下一些變量：

列名描述 Item_id[ 1 , 8133507]為整數，表示唯一項(備註:兩個以上商家同時提供的 A產品記錄在多個不同ID的行中。例如,流行的手機如iPhone 6。)。 Title一個包含多個關鍵字的字符串，由' ' 分隔。通過NLP系統從原始標題中提取單詞。Pict_url在線連結到對應圖片的URL 。Category 字符串' x-y '，其中 ' x '表示其父類，' y '表示其餘類。Brand_id字符串為' b1 '、' b89366 '，表示商品的品牌。Seller_id字符串' s1 '，' s86799 '，表示出售該物品的賣方。對數據進行概覽

summary(data)

刪除缺失值

datanew=na.omit(data)

主要思路

為了準確的估計流行度,了解天貓商品流行度的一般規律,更好為天貓商品投資方提供參考意見,本文從天貓商品流行度和天貓商品相關屬性出發,採用多元回歸分析方法,建立了線性回歸模型,得出了天貓商品流行度變動的影響因素. 具體分析步驟：

1.關係分析

2.選擇多項式回歸模型

2.1變量選取

通過向前向後逐步疊代回歸模型篩選出顯著性較強的變量進行回歸建模。

2.2顯著性檢驗

根據F值和p值統計量來判斷模型是否具有顯著的統計意義。

2.3擬合預測

使用得到的模型對實際數據進行擬合和預測。

3.擬合不同的模型。查看模型效果，包括對數回歸模型，疊代回歸模型。

4.分析得出結論

得出各個自變量之間的關係，以及它們對因變量的影響及其意義。

流行度

查看每個類別的出現頻率作為流行度，通過直方圖查看每個類別出現的頻率：

hist(datanew$category)

對每個類別出現的頻數的多少進行排序：

order(table(dataneg = T)

datanew$pop= order(

然後將出現最多的流行度排序為1，然後根據類比的出現頻數遞增。流行度越大，則出現越少。

建立多元線性：imdb

嘗試通過最直觀的解釋建立模型：

進行多元線性模型並進行分析

設置dummy 變量：從全變量模型可以看出大部分變量無法估計出其參數，說明部分變量不適合用來預測流行度，因此對其中的部分變量進行刪減後。得到篩選後的回歸模型。

篩選變量

顯示回歸結果：

模型比較

**取對數後的結果**

summary(lmmod2)顯示回歸結果

回歸結果

plot(datanew$category

回歸結果分析

從輸出結果可以看出，流行度和類別和品牌圖片地址有顯著相關關係，可以看到他們的回歸系p數在顯著性水平0.05下均顯著不為零。進一步地剩餘方差的估計值，f統計量的估計值對應的p值< 2.2e-16說明，回歸方程是顯著的。可決係數R，修正的可決係數R為 0.1左右說明方程的擬合效果一般，還有部分的流行度被其他變量所解釋。

回歸結果

置信區間與預測區間：

置信區間是給定自變量值後，由回歸方程得到的的預測值（實際上是的平均值）的置信區間；預測區間是實際值的置信區間，在這裡稱為預測區間。預測區間要比置信區間稍大，命令與顯示結果如下：

head(predict(lm))

head(predict(lmmod

殘差分析：

殘差分析可以對回歸模型的假設條件即隨機誤差項是否獨立同分布進行檢驗，同時還可以找出離群點。命令語句為plot(lm.1)，顯示結果如下

par(mfrow=c(2,2))

plot(lmmod2)

左上圖是擬合值與殘差的散點圖，從圖上可以發現，除去第2個離群點外，所有點基本上是隨機地分散在縱坐標值為-1和+1的兩條平行線之間，這說明隨機誤差項具有同方差性；左下圖是擬合值與殘差的標準差的散點圖，其意義與上面類似；右上圖表明隨機誤差項是服從正態分布的，其原因是正態Q-Q圖近似地可以看成一條直線；右下圖的CooK距離圖進一步證實第2個觀測值是一個離群點，它對回歸方程的影響是比較大的，要根據具體問題，討論出現這一觀測值的實際背景。

逐步回歸優化

使用逐步回歸法建立「最優」的回歸方程

stepmod=step

summary(stepmod)查看模型參數與結果

上面用「逐步向前向後回歸法」，通過軟體分析建立「最優」回歸方程。向後回歸法就是建立包含全部因子的回歸方程，通過回歸係數的檢驗，從回歸方程中逐個剔除不顯著的因子，直到留在方程中的因子都是顯著的。

總結

從分析結果可以看出，流行度和類別和品牌圖片地址有顯著相關關係，因此可以認為在天貓購物時，用戶會比較關注商品的品牌因素，因為天貓都是正品商鋪，購買的用戶會比較關注商品的品牌是否為正品等。同時，由於天貓的商品質量有一定的保證，因此用戶也會關注該商品的圖片，同一個商品可能會因為圖片不同而造成不同的流行度。圖片好看的商品會有更好的流行度。

最受歡迎的見解

1.R語言多元Logistic邏輯回歸應用案例

2.面板平滑轉移回歸(PSTR)分析案例實現

3.matlab中的偏最小二乘回歸（PLSR）和主成分回歸（PCR）

4.R語言泊松Poisson回歸模型分析案例

5.R語言混合效應邏輯回歸Logistic模型分析肺癌

6.r語言中對LASSO回歸，Ridge嶺回歸和Elastic Net模型實現

7.R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機森林算法預測心臟病

8.python用線性回歸預測股票價格

9.R語言用邏輯回歸、決策樹和隨機森林對信貸數據集進行分類預測

R語言基於逐步多元回歸模型的天貓商品流行度預測

全文連結：https://tecdat.cn/?p=33212

原文出處：拓端數據部落公眾號

一、 天貓商品流行度預測發展簡介

該數據集有以下一些變量：

刪除缺失值

主要思路

流行度

建立多元線性：imdb

進行多元線性模型並進行分析

篩選變量

模型比較

回歸結果

回歸結果分析

回歸結果

置信區間與預測區間：

殘差分析：

逐步回歸優化

使用逐步回歸法建立「最優」的回歸方程

總結

一、天貓商品流行度預測發展簡介