來源:中國統計網
「Why-What-How」在講解概念和執行上是個不錯的思維模型,本文依例按此框架來拆分數據分析。很多小白可能還沒有數據分析的思路,這裡權且從個人的角度進行梳理,以資參考。為了幫助大家更好地理解本文,先貼出一張思維導圖:
個人的理解, 數據分析是為了能以量化的方式來分析業務問題並得出結論,其中有兩個重點詞語:量化和業務。
量化是為了統一認知,並且確保路徑可回溯,可複製。除「量化」之外,另外一個重點詞語是「業務」。只有解決業務問題分析才能創造價值,價值包括個人價值和公司價值。
那麼,如何站在業務方的角度思考問題呢,總結起來就是八個字「憂其所慮,給其所欲」:
在溝通上,確定業務方想要分析什麼,提出更合理專業的衡量和分析方式,同時做好節點同步,切忌一條路走到黑。舉例來講,業務方說要看頁面停留時長,但他實際想要的,可能是想衡量用戶質量,那麼留存率、目標轉化率才是更合適的指標。
在闡述分析結果上,要記得結論先行,逐層講解,再提供論據。因為業務方或管理層時間都是有限的,洋洋洒洒一大篇郵件,未看先暈,誰都沒心思看你到底分析了啥。
在提供信息量及可落地建議上,先要明白什麼叫信息量:提供了對方不知道的信息。太陽明天從東方升起不算信息量,從西方升起才是。
數據分析的本質是抓住變與不變。「變」是數據分析的基礎,如果一個業務每天訂單是 10000 單,或者每天都是以 10% 的速度穩步增長,那就沒有分析的必要了。而若想抓住變,得先形成「不變」的意識。
因此,我建議新手要形成習慣,每天上班第一時間查看數據:實時&日周月報;記錄關鍵數據(榜單&報告)
在「不變」的基礎上,便能逐漸培養出指標敏感性,即意識指標偏離的能力。這主要是通過各種日環比,周月同比的監控以及日常的好奇心來保持。我們從一個 Questmobile 榜單上,來簡單看下「指標偏離」是怎麼應用到日常的分析上的:
這裡先跟大家分享下怎麼看這種榜單:
數據分析的定義,還有國外一本商務分析的書籍的定義作為註腳:
任何數據分析都是「細分,對比,溯源」這三種行為的不斷交叉。最常見的細分對比維度是時間,我們通過時間進行周月同比,發現數據異常後,再進行維度或流程上的細分,一步步拆解找到問題所在。
1、細分
在細分方式上,主要有以下三種方式
橫切
橫切上,我們對維度和指標做做了分類和交叉,當某一類的指標出現問題時,我們便知道該從什麼維度進行分析。在進行橫切分析時,經常需要多個維度交叉著使用。
縱切
縱切上,有目的有路徑,則用漏斗分析。無目的有路徑,則用軌跡分析。無目的無路徑,則用日誌分析。
內切
內切上,主要是根據現有市面上常見的分析模型,RFM,Cohort 和 Segment等方式進行分析。RFM 即最近購買時間,頻率及金額三個指標綜合來判定用戶忠誠度及粘性。
2、對比
對比主要分為以下幾種:
3、溯源
經過反覆的細分對比後,基本可以確認問題所在了。這時候就需要和業務方確認是否因為某些業務動作導致的數據異常,包括新版本上線,或者活動策略優化等等。
如果仍然沒有頭緒,那麼只能從最細顆粒度查起了,如用戶日誌分析、用戶訪談、外在環境了解,如外部活動,政策經濟條件變化等等
4 、衍生模型
在「細分對比」的基礎上,可以衍生出來很多模型。這些模型的意義是能夠幫你快速判斷一個事情的關鍵要素,並做到不重不漏。這裡列舉幾個以供參考:
以上講的都偏「道術技」中的「術」部分,下面則通過匯總以上內容,和實際工作進行結合,落地成「技」部分。
1、數據分析流程和場景
根據不同的流程和場景,會有些不同的注意點和「術」的結合
2、數據分析常見謬誤
控制變量謬誤:在做 A/B 測試時沒有控制好變量,導致測試結果不能反映實驗結果。或者在進行數據對比時,兩個指標沒有可比性。
樣本謬誤:在做抽樣分析時,選取的樣本不夠隨機或不夠有代表性。舉例來講,網際網路圈的人會發現身邊的人幾乎不用「今日頭條」,為什麼這 APP 還能有這麼大瀏覽量?
定義謬誤:在看某些報告或者公開數據時,經常會有人魚目混珠。「網站訪問量過億」,是指的訪問用戶數還是訪問頁面數?
比率謬誤:比率型或比例型的指標出現的謬誤以至於可以單獨拎出來將。一個是每次談論此類型指標時,都需要明確分子和分母是什麼。
因果相關謬誤:會誤把相關當因果,忽略中介變量。比如,有人發現雪糕的銷量和河溪溺死的兒童數量呈明顯相關,就下令削減雪糕銷量。其實可能只是因為這兩者都是發生在天氣炎熱的夏天。
辛普森悖論:簡單來說,就是在兩個相差較多的分組數據相加時,在分組比較中都占優勢的一方,會在總評中反而是失勢的一方。
數據準確性是第一位的,站在業務方的角度思考問題:憂其所慮,予其所欲,定義「變」與「不變」,細分,對比,溯源。