報告分享|2021中國實體零售數字化專題報告

2022-10-04     tecdat拓端

原標題:報告分享|2021中國實體零售數字化專題報告

全文連結:http://tecdat.cn/?p=28716

原文出處:拓端數據部落公眾號

作者:Mingji Tang

統計學中傳統的數據類型有截面數據和時間序列數據。這兩者都只能在某一縱向或橫向上探究數據,且部分前提條件又很難滿足。而函數型數據連續型函數與離散型函數長期以來的分離狀態,實現了離散和連續的過度。它很少依賴於模型構建及假設條件。通過使用函數型數據,我們可以發掘新冠疫情數據中更多的信息。

一、數據的收集與整理

選擇人口流動較大的北京、上海、廣東,以及與武漢相鄰的重慶、湖南、江西、安徽、河南,一共八個省級行政區的確診人數變化數據作為樣本。

考慮到各省市人口數量差異較大,使用確診人數和總人數的比例作為數據研究對象更加合理。二、 建立函數型數據對象

採用B樣條基線性函數擬合離散的數據。使用最小二乘法得到係數。

然後通過粗糙懲罰來提高函數的光滑性。設置懲罰項為。

則新的需要最小化的式子為:

可以得到光滑化之後的函數型數據。

三、 函數型數據描述

得到數據之後可以計算數據的均值,方差,協方差,以及研究二次導數和導數的關係可以得到相位圖。

四、 函數型數據主成分分析

模仿傳統數據的主成分分析,可以找到離散型數據的主成分分析方法。權函數滿足

某一數據關於這個權函數的得分記為

我們尋找第一個權函數為

後面的權函數為

項目結果

以上分別為函數型數據的均值,方差,協方差以及相位圖。(其中粗線部分是由均值繪製的相位圖。)疫情的發展可以看作一個由平穩態逐漸發展為不平穩態,最後再回到平穩態的過程。相位圖中,我們通常把加速度稱為勢能,而把速度稱為動能。在第一象限階段,病毒的傳播自身的傳播力度為主要勢能,人們的防疫措施尚未建立完全,因此勢能為正,不斷轉化為動能;在第12天左右的位置,勢能由正變成負,函數的凹凸性發生了變化,也就是說人們的防疫管控力度已經成為了主要勢能,疫情的傳播達到了拐點,增長速度得到了控制;在第22天左右的位置,動能由正變成負,函數的單調性發生了變化,疫情的傳播達到了極值點,感染人數從增長變為了減少;軌跡進入三四象限之後,疫情就逐漸緩解,當感染人數逐漸接近0的時候,減少的速度也會逐漸放緩,也就是加速度會回到一個較小的正值,最終當動能回到0時,也就意味著疫情的基本結束。

以上為前兩個主成分,並可以繪製二維的主成分得分圖。可以看到前兩個主成分包含的數據信息已經超過了92%。

可以看到,從橫坐標來看,右側的北京,重慶,江西三省市的第一主成分得分較高,也就意味著和第一主成分函數正向吻合,在中期的值較大,即疫情巔峰時期的感染人口比例較大;反之,河南,廣東,湖南,上海四省市第一主成分得分較低,疫情巔峰時期感染人口比例較小。再觀察縱坐標,主要反映了後期即3月之後的疫情感染人口比例,可以發現北京,廣東兩地仍處於較高的水平,這也與兩地人口密度大,人口流量大有關。而廣西,安徽等地感染人口比例已經基本趨於0。

關於作者

在此對Mingji Tang對本文所作的貢獻表示誠摯感謝,他專長時間序列、機器學習、回歸分析。

最受歡迎的見解

1.R語言結合新冠疫情COVID-19股票價格預測:ARIMA,KNN和神經網絡時間序列

2.Python用RNN循環神經網絡:LSTM長期記憶、GRU門循環單元、回歸和ARIMA對COVID-19新冠疫情新增人數

3.MATLAB用高斯曲線擬合模型分析疫情

4.疫情下的新聞數據觀察

5.MATLAB用高斯曲線擬合模型分析疫情

6.在R語言中使用航空公司複雜網絡對疫情進行建模

7.R軟體SIR模型網絡結構擴散過程模擬

8.R語言和Stan,JAGS:用rstan,rjag建立多元貝葉斯線性回歸預測選舉

9.R語言和JAGS:用rjag建立多元貝葉斯線性回歸預測選舉

文章來源: https://twgreatdaily.com/zh-tw/e518a3ecc2a7d8612caadd1d7f0b1946.html