BI數據分析-方案計劃

2023-07-31   CDA數據分析師

原標題:BI數據分析-方案計劃

前面我們花了大量的篇幅給大家闡述了方案設計階段的舉措和模型構建思路,包括利用頭腦風暴法收集創新點、對數據按不同維度進行盤點、創建數據服務畫布等。這些設計舉措都是為了能讓產品架構更加新穎和完整,為後續的實施鋪墊。那麼最後環節,便是本期所要介紹的如何提出需求和對應的方案計劃。

一、數據需求文檔

1. 什麼是數據需求文檔?

撰寫數據需求文檔是數據產品經理工作中一項日常任務,在這簡單的任務文檔背後也存在值得注意的地方。

數據需求文檔英文全稱Data Requirements Document,它和我們需求文檔PRD如出一轍,都是作為研發團隊溝通的一種憑藉。只不過DRD更偏向數據類型的產品,所以DRD的出現是為了便於管理當前數據埋點的狀態和邏輯疊代的詳細描述,也是建立企業數值化體系的基礎。

生為數據產品經理,那麼日常需求中肯定都會做過埋點相關工作,當面對埋點需求時,我們就需要通過數據需求文檔明確數據的需求,以及高效的同研發人員溝通具體實施細節及實現結果,並且在後續的功能疊代和工作交接過程中,數據需求文檔更顯得重要。

上述提到了兩點,一個是對數據產品經理的要求,一個對業務目標的要求。一方面數據產品經理其實和產品經理一樣,承擔了產品規劃、設計、整體項目推進、產品運營推廣等工作。另一方面,數據產品經理和產品經理又稍有不同,數據產品經理需要額外懂得數據分析、常用資料庫語言等技術內容。

對於數據產品經理來說,其能力要求便是產品經理的思維加上數據分析能力。既然如此,日常的產品需求和數據結合便是我們剛才提到的數據產品需求說明文檔。數據產品需求說明文檔,是數據產品項目經由產品經理的概念化階段進入到具體的圖紙流程化階段的主要的文檔資料。這是產品需求的具體描述,其包含了需求背景、業務目的、痛點價值、產品架構、功能模塊、業務流程、數據要求等。

總的來說,和我們產品經理日常的需求文檔一樣,只不過會多出數據說明模塊。

所以,數據產品需求說明文檔是產品需求說明文檔和數據需求說明文檔相結合的產物。

2. 如何寫一份高質量的DRD文檔?

首先要明確數據需求。只有從業務角度本身出發,才能夠更好的滿足業務所需的信息和數據。對於埋點需求來說,只能需求清晰明確了,才能夠合理設計埋點採集方案的指標定義。

對於DRD中想要達成的目標來看,數據是判斷目標是否達成的關鍵要素,也是服務上一代疊代後的效果衡量依據。通過定義好的指標,再圍繞其進行架構設計和功能模塊就可以完成我們的DRD文檔了。

簡單來說,DRD在基礎規範上需要包括以下兩個要點:

1)全面性:描述儘可能地細緻,橫向考慮各個細節功能點,縱向考慮鏈路流程以及異常情況,讓使用者在腦海中能更好地還原產品畫面。

2)可讀性強:結構完整,內容清晰。通過清晰的編號和結構,讓使用者的閱讀性更強,語言專業,簡明扼要,邏輯性強。

3. 數據需求文檔包括哪些模塊?

下面結合具體實例說一下一份出色的數據需求說明文檔包括哪些內容。

1)明確需求定義指標

通過業務需求拆分出的核心數據指標。在定義指標之前需要了解產品結構、用戶行為等來明確分析的範圍。

以到期理財資金流出外行預測模型為例。

數據需求:通過埋點採集產品模塊和用戶行為,分析用戶使用產品的情況和行為偏好以及流失原因。

指標類別:

  • 報表指標:新增、日活、月活、註冊、停留時長、留存等。這些通常是業務日常觀測的核心數據指標,一般作為報表的常規指標進行統計觀察。

  • 營銷指標:首頁曝光、推廣位曝光、點擊、購買、轉化等營銷板塊數據指標。

  • 產品生命周期指標:留存、7日留存、月留存、成本等。

  • 運營指標:會員新增、會員活躍、累計、續費等指標。

  • 產品功能指標:導航欄、點擊、窗口點擊和轉化等指標。

報表指標:新增、日活、月活、註冊、停留時長、留存等。這些通常是業務日常觀測的核心數據指標,一般作為報表的常規指標進行統計觀察。

營銷指標:首頁曝光、推廣位曝光、點擊、購買、轉化等營銷板塊數據指標。

產品生命周期指標:留存、7日留存、月留存、成本等。

運營指標:會員新增、會員活躍、累計、續費等指標。

產品功能指標:導航欄、點擊、窗口點擊和轉化等指標。

常用指標類別確定了我們需要分析的數據指標,例如:

AUM大於XX

核心產品滲透率大於XX

觀察期開始時間節點時持有XX理財產品大於XX

確定好之後,我們就可以進行後續的需求設計了。

4. 數據需求分類

數據產品經理工作內容上從上層到下層數據採集到上層數據應用,可分為數據埋點方向、BI分析方向、用戶畫像方向。對應的需求文檔分別是:

埋點數據需求文檔,偏向於埋點事件的設計描述。

指標數據需求文檔,偏向於對指標、數據邏輯、屬性維度的描述。

標籤數據需求文檔,偏向於對標籤的含義、取數邏輯的描述。

5. 埋點事件設計

埋點事件主要從兩方面進行事件設計,一個是鎖定核心要分析的頁面所產生的行為數據,一個是鎖定核心功能產生的行為數據。

頁面事件就是頁面上的各模塊內容以及這些內容在頁面上所產生的點擊、瀏覽等行為。

功能事件就是頁面的各種功能實現,比如搜索、登錄、註冊、下單、繳費、掃碼等,這些功能的入口、點擊和完成行為。

6. 如何定義指標屬性

每個事件都有其對應的事件屬性來說明該事件具體分析的維度。屬性可分為通用屬性和具體屬性。通用屬性例如:版本、設備、網絡、IP等。具體屬性例如:各事件的來源、各頁面加載時長、各內容的位置、各內容的ID等。

埋點設計時需要進行採集這些事件的屬性和參數用來分析。事件屬性維度的拆解可以仿照4W1H(who、when、what、where、how)的方法去進行思考避免遺漏。

通常的頁面時間的屬性參數會涉及到事件的來源位置、頁面曝光時長、頁面上曝光的內容、內容ID、內容類型、有無圖片等。

功能按鈕在進行點擊時,需要對事件屬性進行設計,一般只需要監控按鈕點擊數即可,不需要對其他背後的屬性進行說明,例如掃一掃、Banne點擊等。而且有的時候可以把按鈕所屬的頁面作為一個事件,把各個按鈕名稱作為參數,去設計埋點方案。

採集數據的過程就是在確定產品範圍內找到用戶的點擊、曝光、完成等系列行為,最後針對各個行為進行屬性和維度的細分描述。這樣數據文檔就保證了數據和邏輯的高質量性。

這一方法論不僅適用於埋點方案設計時也適用於在其他所有地方和場景中做產品方案設計時。

7. 如何定義目標變量

我們還是以到期理財資金流出外行預測模型為例。目標變量數據文檔主要包含:

1)標籤主題:標籤主題一般按照分析對象劃分,比如電商中的消費者、商家、商品等屬於對象,不同主題下對象劃分的標籤類別是不一樣。

2)標籤類別:主要是看標籤的類別屬性,比如基礎信息還是統計信息。

3)標籤名稱:比如我們這裡的AUM指標。

4)標籤值:標籤的枚舉值,比如百分比。

5)數據類型:分類型、連續型標籤。通常會根據數據本身的屬性進行定義。此項一般由數據開發人員進行填寫。

6)標籤含義:標籤含義由業務專家進行定義,是指向性的指標。

7)標籤計算邏輯:計算邏輯由數據倉庫開發或者算法工程師填寫,從技術角度描述標籤是如何一步步得出的。

8)依賴數據表和欄位:產品經理需列出標籤所需的依賴關係數據表和欄位,方便數據開發人員編寫邏輯。所以產品經理需要對底層的數據表和業務欄位較為熟悉,最好能和業務專家一起整合梳理。

綜上來看,產品經理需要通過業務語言,將標籤的業務含義和計算規則描述清楚,並由研發人員進行評估和增強標籤的置信度。

其中適用場景和業務決定是否設置和定義該標籤。如「AUM」標籤,表示該機構當前管理客戶資產的總市值。

統計AUM標籤是很簡單直接的方式,優點是能靈活制定規則,例如「理財產品到期後七日內,AUM下降>XX%或者AUM下降百分比>XX%」,且規則簡單。但是還需要注意的是,量化的標籤值往往沒有明確的業務策略,以至於這個標籤開發出來沒人用。所以產品經理需要進一步思考,基於這個場景,標籤是否還有其他更好的邏輯和實現方案。

8. 取數窗口設置

數據加工流程:確定建模樣本、樣本外方案樣本、未來的應用樣本以及明確標籤(Y)和制定標籤的數據。

前面我們已經對標籤設計進行了說明,他們接下來就要從數據加工流程將各維度、標籤、樣本組合到一起。

1)靜態數據:也被稱為屬性數據,數量極少,往往有主觀判斷;

2)動態數據(時點):也被稱為狀態數據,是流量數據累積的結果;

3)動態數據(期間):也被稱為流量數據、行為數據,一般只能拿到公司內部的數據。

  • 觀察期:代表的是決策的時候已知的信息,位於時間軸左側,主要是用

    生成用戶特徵的時間區間,即用來確定X自變量。觀察期的長短會因模型和

    業務需求不同而異,如以到期理財資金流出外行預測模型為例,一般在3個

    月以上。

  • 觀察點:觀察點不是一個具體的時間點,而是一個時間段,表示的是歷史

    數據觀測的時間,用來搜集用來建模的觀測樣本 ,在該時間段的歷史數據

    資料是我們用來建模的樣本。

  • 表現期:用來定義標籤值的時間區段,即用來確定Y標籤,其代表的是決策

    時未知的但對決策效果非常重要而需要預測的信息;表現期的長短因模型

    和業務需求不同而異。

觀察期:代表的是決策的時候已知的信息,位於時間軸左側,主要是用

生成用戶特徵的時間區間,即用來確定X自變量。觀察期的長短會因模型和

業務需求不同而異,如以到期理財資金流出外行預測模型為例,一般在3個

月以上。

觀察點:觀察點不是一個具體的時間點,而是一個時間段,表示的是歷史

數據觀測的時間,用來搜集用來建模的觀測樣本 ,在該時間段的歷史數據

資料是我們用來建模的樣本。

表現期:用來定義標籤值的時間區段,即用來確定Y標籤,其代表的是決策

時未知的但對決策效果非常重要而需要預測的信息;表現期的長短因模型

和業務需求不同而異。

9. 特徵分析

我們要對理財資金流出外行預測模型進行特徵分析,就需要首先了解理財產品的特點。

客戶信息的收集主要用於客戶分析,客戶分析的目標是找到一個單一準確的視角來制定策略,從而最優化的獲取和保留客戶,定義高價值客戶。

•描述信息:客戶的基本屬性信息,包括人口統計學的信息諸如性別,年

齡,地理位置和收入;也包括自我描述類信息,對於產品的偏好和評價信

息。從這些數據中可以細分出關於客戶的有用的特徵和分類,例如早期采

用者(在產品介紹期和成長期採用新產品,對後面的採用者影響很大),性

價比追求者或特定的顧客角色。這些信息可以來自買賣信息,註冊記錄,

調查,回訪,情景訪談。這類信息一般易採集,但是質量難以保證。

•行為信息:客戶的行為信息,即客戶在使用產品和服務的時候表現出來的

一般的模式;包括購買行為,註冊,瀏覽以及使用不同的設備等。例如經

調查發現一些特定產品分類 (消費性電子產品、家具)的顧客,晚上傾向於

使用平板電腦購買,而白天傾向於使用台式機購買。行為信息的特點在於

實時採集,需要整合匯總。

•交互信息:客戶和網站的交互信息,包含網站或者軟體的點擊信息,導航

路徑以及瀏覽行為。主要用途在於網站或軟體實用性能測試,例如通過模

擬真實的交互得到點擊間隔對應的等級。收集數據的途徑有:A/B測試,

谷歌分析師(Google Analytics),實驗室收集等。

•態度信息:客戶偏感性的信息,例如偏好、選擇、願望、品牌認可度及情

懷等;可以通過調查問卷,特定關注群體的調查以及使用性測試等獲得。

一些知名的調查問卷公司常用來量化行為和交互信息對態度信息的影響。

這些態度可能會影響描述信息中的量化的某些自我描述信息。

這裡就不得不提到生命周期管理,不管是客戶還是產品,我們在進行特徵選擇和分析時,都離不開生命周期的不同階段的關係分析。

客戶生命周期(customer life cycle)的概念來自客戶關係管理(CRM:Customer Relationship Management)的實踐中,用來描述客戶在接受不同產品或者服務的時候所要經歷的階段。包括考慮階段,購買階段,購買後的行為階段(這個階段會引入客戶持久度、忠誠度以及擁護度等概念)。

顧客終身價值(CLV:Customer Lifetime Value)的概念,是指客戶在未來整個客戶生命周期中產生的總價值,CLV可以作為衡量客戶關係水平的一個指標。

顧客在不同的階段會產生不同的價值,轉化期之前企業投入營銷成本,顧客產生的價值是負的,隨著顧客和企業關係的穩固和成熟,產生的價值越來越多,也就是說越晚流失客戶對於一個企業來說產生的損失越少。所以企業應該關注選取適當客戶,減少客戶的流失率,採取保留客戶的策略以及交叉銷售的策略。同樣的在保留/放棄階段企業應該對客戶做出選擇性保留,以達到收益最大化。

接下來就是對標籤進行劃分,上圖我們用到的是樹狀分級結構來劃分標籤的主題,以及標籤所屬的類別,簡而言之,也可以理解為劃分標籤的一級分類、二級分類。為什麼要做這樣的劃分呢?

這裡的細分過程可以採用MECE分析法,它是指「相互獨立,完全窮盡」。也就是對於一個重大的議題,能夠做到不重疊、不遺漏的分類,而且能夠藉此有效把握問題的核心,並解決問題的方法。

MECE分析法是把一個工作項目分解為若干個更細的工作任務的方法。它主要有兩條原則:

完整性,說的是分解工作的過程中不要漏掉某項,要保證完整性;

獨立性,強調了每項工作之間要獨立,每項工作之間不要有交叉重疊。

在分析事實、創建假設都貫穿著MECE的思維準則。結構化思維需要對問題的思考更完整、更有條理。但結構化的思維並不意味著對問題機械、簡單地肢解。結構化的思維在於理清思路,而不是否認事物之間的相互聯繫。

如上圖,我們按照客戶和產品維度進行分類,然後再對客戶和產品維度下的各特徵屬性進行細分,利用我們剛才提到的客戶關係管理的內容,就屬性進行不重複不遺漏的枚舉,如下參考:

1)客戶特徵

人口及家庭:性別、年齡、星座、婚姻、家庭規模、子女年齡

社會經濟狀況:職業、職級、學歷、收入、當前資產規模、城市級別、房產、汽車檔次、小區檔次

帳戶及產品信息:我行帳齡、產品持有個數、產品持有種類/金額

客戶分層:客戶層級、風評等級

過往投資歷史:

在我行理財帳齡

過去一至兩年購買理財產品次數、總金額、平均金額

過去一至兩年購買基金/保險/國債/貴金屬等產品次數、金額

歷史理財到期後一周承接率

歷史理財到期後平均承接時間

歷史投資收益:

歷史購買理財產品平均收益率

歷史購買理財產品的預期收益率與實際收益率差距

歷史收益率達到X.X%以上的理財產品金額占比

歷史購買基金平均收益率

近三個月基金帳戶是否有虧損

近期帳戶交易:

近3\6\12個月超過月均AUM 20%的轉入\轉出次數

近30天最大轉帳(轉入/轉出)金額

近30天儲蓄/理財/基金帳戶規模增長率

近30天儲蓄/理財/基金帳戶規模波動率

交易信息:

近30天是否有大額交易(買車、買房、婚慶相關)

近六個月月均支出\轉入金額

近三\六個月支出\轉入增長率

近三\六個月支出\轉入波動率

近三\六個月帳戶餘額波動率

近三\六個月支出\轉入最大值

近三\六個月支出\轉入最小值

近三\六個月帳戶餘額最大值

近三\六個月帳戶餘額最小值

近三月同名他行帳戶資金交易次數

渠道偏好:

網銀交易/登錄次數占比

手機銀行渠道交易次數占比

電子轉帳交易次數占比

是否持有信用卡

信用卡使用頻率

瀏覽產品:

近一周瀏覽理財產品次數

近一周瀏覽保險產品次數

近一周瀏覽其他財務產品次數

2)產品特徵

收益類型:保障收益型、保本浮動、非保本浮動

運作模式:封閉非凈值、封閉凈值、開放式非凈值、開放式凈值

期限和起購金額:

產品期限結構:T+0、7天、14天、30天、180天等

產品起購金額:5萬、10萬、20萬、100萬等

到期金額和收益:

到期產品規模

到期產品規模占總AUM規模百分比

到期產品預期收益率

到期產品實際收益率

預期收益與實際收益差異

二、計劃方案

1. 可行性研究

可行性研究是對擬理財或者投資項目進行多方面的調查研究和綜合論證,為投資決策提供科學依據,從而保證投資項目在技術上的可靠性,經濟上合理性、有利性,操作上合法性。總體來說,可行性研究報告的編制要做到重點突出、邏輯清晰、主次分明。

2. 數據準備

我們前面對數據層面的獲取和探索進行很多描述。總體來說,包括獲取存量客戶及潛在客戶的數據。存量客戶是指已經在金融企業開展相關融資類業務的客戶,包括個人客戶和機構客戶;潛在客戶是指未來擬在金融企業開展相關融資類業務的客戶,主要包括機構客戶,如上市公司、公開發行債券的發債主體、非標融資機構等。

3. 模型研發/數據分析

主要工作包括數據清洗、特徵工程、算法建模。通過統計學的方法,篩選出對標籤影響最顯著的指標,再通過模型進行預測分析。

4. 用戶測試

根據模型驗證和主標尺設計的結果,評估模型的區分能力、預測能力、穩定性、並形成測試評估報告,得到模型是否可以使用的結論。

5. 樣本驗證

對樣本進行二次校驗,保證數據源頭的一致性和完整性。

6. 驗收

驗收項目後,也需要定期監測模型的使用情況,並關注和定期檢驗模型的區分能力與預測能力的變化及模型穩定性的變化,在出現模型可能不能滿足業務需求的情況時,反饋至模型開發團隊,及時進行模型更新或重新開發。