python基於評論情感分析和回歸、arima銷量預測的購物網站選品

2023-02-28     tecdat拓端

原標題:python基於評論情感分析和回歸、arima銷量預測的購物網站選品

全文連結:http://tecdat.cn/?p=31678

原文出處:拓端數據部落公眾號

分析師:Ru Bai

網絡購物模式已成為越來越重要的產品銷售模式,亞馬遜網站早在1995年就開始邀請產品消費者發表在線評論,此舉帶來了良好的效果,目前幾乎所有的網站都採用了同樣的方式。這是因為在線評論:與該網頁上的產品銷售有著直接相關,便於消費者了解產品信息和服務,並且消費者認為評論信息具有更高的可信度;對企業網絡購物平台經營決策起作用,利於企業選擇進入市場的時間,選擇更受消費者青睞的商品,提高效益。

本文旨在為某公司客戶提供線上銷售策略,基於不同於以往的分析方式,分析在線評論內部各屬性的特點以及他們之間的關係,並從動態的角度探究產品在網絡平台上名譽的變化和發展潛力,從而提出有助於提高銷量的建議。

解決方案

任務/目標

分析產品口碑的影響因素,從評論情感分析和銷量預測兩個角度對網站選擇商品和網站運營給出建議。

數據源準備

以在線評論作為基礎數據源(來自於亞馬遜網站的)

數據預處理

數據處理的目的是為了去除掉數據集中的髒數據,從而確保數據質量,提高數據可用性與使用率,保證分析結果的準確性。因此,根據本文數據處理的需要,我們需要對數據集進行如下數據處理:

a、刪除對應產品不屬於我們要研究的品類的數據。本文只針對吹風機、微波爐、奶嘴,其他產品不具有參考價值。

b、刪除評論星級不屬於[1,5]的數據。商品的星級評分在亞馬遜網站上都是1-5範圍內,但是由於系統bug,會導致出現超出此範圍的評分,超出了正常值域範圍。

c、刪除helpful votes大於total votes的數據。認為其為錯誤數據。

d、刪除review title、review body均為空的數據。當這兩個均為空時,這條數據沒有傳遞任何評論信息,因此根據數據有效性原則。

e、基於本文產品預測的目標,我們需要按照時間維度對得到的產品信息進行劃分,並且按照同一產品的ID在時間維度上進行匯總。對於評論總數小於20的產品、後幾年的評論總數均為0的產品我們選擇刪除。數據顯示為0可能是數據儲存失敗、存儲器存在問題等原因,也可能是該產品退出了市場,對產品預測沒有參考意義。

文本預處理

a、對評論文本數據進行規範化。瀏覽數據集中的評論數據,我們發現有很多評論中出現單詞拼寫錯誤、表情符號使用較多以及其他冗餘信息,他們不僅不能提供任何有用信息,還會影響模型的運行效率。因此,我們需要過濾掉這些信息:

b、英文分詞。

1)運用python對每一條評論進行英文分詞。

2)去掉標點符號和停用詞。冠詞、介詞、副詞、連詞等雖然在評論中出現的頻率較高,但是它們無法表示評論信息的特徵。

c、詞性標註和詞頻統計。由於我們要對產品設計提出更好的建議,為了儘量符合消費者的需要,我們需要從評論中提取出相應的信息。標註產品屬性和消費者情感中涉及到的名詞、形容詞、副詞和否定詞等。

建模

模型一:零膨脹負二項回歸模型

以信息採納理論和負面偏差理論為基礎,結合情感分析和零膨脹負二項回歸方法,從評論者信度、評論信息質量、評論極性三個方面探究評論有用性投票影響因素。

分析:

評論有用性投票是一個計數變量,且不呈正態分布,不滿足普通最小二乘回歸模型,且數據較為分散,此種情況下採用泊松回歸模型擬合效果不理想,因而採用負二項回歸模型。

評論有用性投票零值比例高,是因為消費者並不會瀏覽所有的評論,因此投票的評論為0,並不代表該評論沒有用。建立邏輯回歸模型對因變量中的零值進行解釋。

模型:

邏輯回歸模型(對因變量有用性投票數為0,做出解釋)

變量類型變量名變量變量解釋自變量評論發表時間time 評論已經發表的時間(距數據最後一天)商品總評論數reviewtotal 商品銷售排名rank認為評論數反映了銷售量因變量評論有用性投票數helpfulvotes評論獲得的有用性投票的總數

負二項回歸模型

變量類型變量名變量變量解釋自變量評論者有用性reviewer_use評論獲得的有用性投票的數/得到的總票數是否為資深評論員vine0:否 1:是購買是否打折discount0:否 1:是評論長度length評論所含單詞的數量星級極差rateGap星級評分與平均星級差值的絕對值情感指數emotion_rating評論文本的情感傾向性指數因變量評論有用性投票數usefulNum評論獲得的有用性投票的總數模型改進 :修正星級

(1)星級評價是一種簡單,易於操作的評價形式,但無法全面展示評論者的情感態度。例如:A覺得產品毫無瑕疵所以打了5星,B覺得產品有一點缺點,但總體滿意還是打了5星。因此,我們在原有的評分系統上進行改進,依舊採用所有評論者評分均值的方法,但對每一條評論,使用評論情感指數修正星級評價,增加準確性。

符號說明:

變量屬性變量名變量變量說明自變量評論星級第i個產品的第j個評論者評論星級 j=0,1…num情感指數第i個產品的第j個評論者評論文本情感指數因變量修正評分第i個產品的修正評分

以微波爐的產品為例,將原來的產品總分與修正後的評分做對比:

發現,修正後的模型和原來的分數差距很小,只是將評價等級範圍擴大。但可以很好的刻畫評論者的評論極性和情感強度,能將極斷的情緒放大,情感表達更強烈。同樣修正模型也可以更加完整地展示評論者的態度。

(2)將產品綜合情緒作為自變量,產品的評論總數作為獨立變量,綜合星級作為因變量,建立如下回歸模型:

通過R語言進行回歸,我們可以得到回歸模型:

此外,rsqure為0.9901,很接近於1,說明回歸效果很好。

將產品綜合情緒作為自變量,產品的評論總數作為獨立變量,綜合星級作為因變量,建立如下回歸模型:

通過R語言進行回歸,我們可以得到回歸模型:

此外,rsquare為0.9901,很接近於1,說明回歸效果很好。

這種給產品打分的模式可以更好的刻畫評論評價中蘊含的情緒,越準確的打分越能夠了解產品在市場上的口碑以及產品的品質,從而使得顧客更直接獲得對產品的感知,提高對購物網站的認同度。

模型二:網絡口碑感知的動態內生模型

網絡口碑量化指標的確定。在實際生活中,消費者對網絡口碑感知是一個階段的過程,是對一個時間段內產品的屬性、質量、服務等的總和感知,因此,上訴分析的影響因素對網站口碑感知的印象是存在滯後性的,此時就產生了在線評論和網絡口碑感知之間的動態均衡過程。

分析:

自變量:(與評論有關)

產品綜合星級():是消費者對產品感受最直接的反應,認為星級越高,消費者對該產品的評價越好

在線評論的數量(cNum):評論數越多,說明參與評論的人越多,也反應出產品銷量高,消費者對該產品的關注多

負面評價在線評價的比例 (nage):負面評論是影響口碑的重要因素,並且負面評論降低產品銷量比正面評論所帶來的銷量上升的效果更佳顯著。

綜合情感指數():由評論文本分析得到的情感指數可以反映評論者對產品更全面的感知

控制變量:(與評論無關但可以度量的)

競爭者的數量(pnum), 還包括降價幅度產品發布時間(time)

啞變量:(與評論無關且不可度量的因素)

品牌效應(brand):該產品資深評論者的星級評價平均值

模型

基於上述分析的結果,建立網絡口碑感知與各變量之間的線性模型來進行估計,為了避免異方差及偏態性的影響,公式中的部分變量以自然對數表示:

時間節點t控制各變量周期的時間節點控制值A,B,C控制各變量是否起作用的布爾值(0或1)各變量係數各變量的係數自變量、控制變量t時段第i個產品的第j個自變量、控制變量、啞變量產品銷售排名t時段的產品銷量排名為了證明在線評論對口碑感知的影響大小,構建兩個模型進行對比:

當A=0,B=1, C=1,T=4時,得到模型一

當A=1,B=1,C=1,T=4時,得到模型二:

通過分析各變量對產品網絡口碑感知的影響,為了防止出現多重共線性的問題,對相應的變量進行了中心化處理,處理之後,所有的方差膨脹因子VIF小於5,說明多重共線性問題被有效規避。

模型三:ARIMA時間序列預測模型

ARIMA模型是在ARMA模型的基礎上加入了差分處理。模型公式:

ARMA表示時間序列,是干擾項與以及序列值的線性組合。AR的係數由模型中的表示,p表示自回歸階數,一般表示時序數據本身的滯後數;MA的係數由表示,q表示移動平均階數,一般表示預測模型中採用的預測誤差的滯後數。ARIMA(p,d,q)中d代表差分次數,為了使非平穩的序列變得相對平穩。

選取了亞馬遜網站上三種商品(吹風機、奶嘴、微波爐)的評論數據分別進行分析。在數據預處理之後,以奶嘴為例,得到23764條數據,時間跨度為2003年4月到2015年8月,每款商品的總體銷量範圍在0~833之間,所以本文以月為單位劃分時間進行模型構建與驗證,並預測之後5個月的銷量。

觀察時序圖,可以看出銷量整體走勢是呈上升趨勢的,但不太平穩,有一定的波動性,所以進行一階差分處理,符合ARIMA模型。

模型一:

採用微波爐所有產品的數據,其中有用性投票最小為0,最大是814,有用性投票的分布比較離散,約41.14%的有用性投票數為0,適用於我們建立的模型。結合回歸分析結果與描述性統計結果進行分析。

變量estimateSEZP 值負二項- ( Intercept -1.065e+006.182e-02-17.223<2e-16reviewer_use2.809e+005.950e-0247.207<2e-16vine4.029e-014.037e-029.981<2e-16discount-1.134e-012.739e-02-4.1393.49e-05review_length3.212e-033.835e-0583.746<2e-16emotion_rating2.719e-011.634e-0216.644<2e-16rate_gap1.915e-011.387e-0213.810<2e-16logistic Intercept -3.5832791.436305-2.4950.012603time-0.0067310.001543-4.3631.28e-05rank0.0875400.0519731.6840.092115review_total0.0124040.0034793.5650.000364結果表明,評論者有用性,評論信息量,評論回複數,極端評分,評論文本消極傾向對評論有用性投票具有積極正向影響,評論者發表評論數,評論者是否打折購買對評論有用性投票數有負面影響。基於此,建議網站改善評論排序機制和商品推薦機制,方便消費者篩選高質量評論,重視負面評論,在選擇商品時考慮網絡口碑。

模型二

所建立的網絡口碑動態內生模型可以展示一個產品隨時間的名譽變化,由此網站可以更好的選擇商品,優化網站質量。另外,影響口碑的因素還包括產品發布時間、產品質量、服務質量、降價幅度等因素。****

模型三:

a.微波爐各具體產品未來五個月的銷量預測

由圖可以看出2015年8月到2016年1月銷量最高的是ID為423421857的商品,雖然在2015年9月份有所下降,但10月份又呈上升態勢。771401205商品的銷量在未來5個月不如其他商品銷量平穩。因此優先選取423421857產品,其次為523301568產品,544821753產品。

b.吹風機各具體產品未來五個月的銷量預測

未來5個月各產品銷量排名不會改變,雖然732252283商品銷量有所下降,但在9月後又繼續上升;但486774008和694290590都呈下降趨勢;其他都很平穩,並無增長的明顯態勢。因此推薦程度為:732252283>758099411>235105995。

b.奶嘴各具體產品未來五個月的銷量預測

246038397明顯銷量遙遙領先,392768822有很大的增幅後趨於平穩並超過其他產品,雖然572944212銷量領先於450475749,但其呈下降趨勢,因此我們選擇推薦:246038397>392768822大於450475749。

關於作者

在此對Ru Bai對本文所作的貢獻表示誠摯感謝,她擅長數據採集,數學建模。

最受歡迎的見解

1.Python主題建模LDA模型、t-SNE 降維聚類、詞雲可視化文本挖掘新聞組

2.R語言文本挖掘、情感分析和可視化哈利波特小說文本數據

3.r語言文本挖掘tf-idf主題建模,情感分析n-gram建模研究

4.遊記數據感知旅遊目的地形象

5.疫情下的新聞數據觀察

6.python主題lda建模和t-sne可視化

7.r語言中對文本數據進行主題模型topic-modeling分析

8.主題模型:數據聆聽人民網留言板的那些「網事」

9.python爬蟲進行web抓取lda主題語義數據分析

文章來源: https://twgreatdaily.com/zh-mo/f8f9043e9576de963612991b2ad11d5d.html