從抖音起名說起,位元組跳動解密數據驅動的正確打開方式

2021-04-22     大數據文摘

原標題:從抖音起名說起,位元組跳動解密數據驅動的正確打開方式

大數據文摘出品

根據抖音官方於1月5日發布的2020年度數據報告,截至2020年8月,抖音日活躍用戶突破6億,截至2020年12月,抖音日均視頻搜索次數突破4億

這其中,肯定有你我的功勞。

但是,身為抖音重度用戶,文摘菌要考考大家,你知道「抖音」這個名字是怎麼來的嗎?

4月20日,位元組跳動旗下火山引擎的技術開放日在北京方恆時尚中心舉辦,位元組跳動技術負責人楊震原就數據驅動以及A/B測試發表了演講,期間他也透露了「抖音」的名字由來。

「抖音」這一名字,綜合了A/B測試和人為判斷的結果,「雖然『抖音』這個名字在測試結果中排名第二。但大家覺得,這個名字更符合認知,更能體現它的形態,所以還是選了它」。

也就是說,「抖音」這一名字,其實綜合了數據驅動和人為思考的共同決策,也和位元組跳動的A/B測試緊密地綁定在一起

數據驅動很重要,但也不是有數據就能驅動

「數據驅動」這個詞,對於身處於大數據時代的你我已是耳熟能詳。這種將數據作為生產資料正向反饋到經營活動中的行為,早已成為了科學決策的代名詞。

但是,由於過分追求「數據決策」,也有不少企業會陷入「唯數據論」的誤區,認為只要有數據支持,就能做出比人為思考更科學的策略。

對於如何更合理地實現數據驅動,在2020年大數據文摘聯合清華大數據研究院聯合發布的《頂級數據團隊建設全景報告》中就明確說明,「要依賴數據做決策,但不能只依賴數據做決策」

在評估方法中有「經驗判斷」這一分類,即主要靠人的主觀判斷。在公司決策上,主要依靠於領導層的決策,這一方法目前在大多數公司中得以採用,不過究其問題,不僅在執行上困難重重,也很難糾正有偏性。因此,在進行重大問題決策時,並不是有數據就可以的,還需要有效的驗證數據的方式

如何更好地利用數據,以實現真正的數據驅動,A/B測試就是不二選擇。但要真正用好A/B測試,還需要理解,什麼是真正意義上的A/B測試,什麼是非A/B測試。

對於非A/B測試,可以用一個例子簡單說明。如下圖所示,這張照片用清晰的數據格式向我們證明了,巧克力吃得越多的國家,諾貝爾獎得主也就越多。也就是說,如果我們想多拿諾貝爾獎,就必須多吃巧克力了?

這個結論顯然是不靠譜的,兩個事件存在相關性,並不能直接推導出存在因果性。而如果在決策中出現這種情況,就會面臨不小的風險。

簡單公正,科學創新:A/B測試輔助數字化管理

說回A/B測試,這一方法並非網際網路公司原創。早在18世紀壞血病肆虐時,英國一位醫生就利用了A/B測試,他把患有壞血病的水手隨機分成六組,用不同方法進行治療,從而確定了檸檬和橘子能有效治療壞血病。這也是人類有記載最早的A/B測試。

如今,這一方法已經被網際網路公司納入數字化管理中來。企業在做產品/功能測試時,一般都會用到A/B測試,即把用戶分為兩組,對照組和實驗組。對照組採用已有的產品或功能,實驗組採用新功能,要做的是找到他們的不同反應,並以此確定哪個版本更好。

如此看來,A/B測試似乎效率很低,既要分組,還要時刻關注影響因子的存在。

但是試想,當真正清楚一個事件以及它的影響因素後,我們就可以順著台階步步為營,反之這種進步就是間斷的。而A/B測試就是穩中求勝的關鍵一環。

在矽谷,網際網路公司早已將A/B測試納入企業數字化管理中來了,在LinkedIn、谷歌這類以數據為主導的領先網際網路公司中早已形成了共識:A/B測試簡單公正,既跳過了爭論,也在一定程度上提倡數字化引導的科學創新。

LinkedIn全球數據科學團隊負責人許亞曾在採訪中對大數據文摘表示,在用戶看得到的與看不到的地方,LinkedIn都堅持著A/B測試。

以一款好的網際網路產品為例,從搜索欄、搜尋引擎算法、底部導航,到頁面文字大小,這些都是可以經過A/B測試的。除了這些用戶能看到的地方,在後端用戶看不到的地方,很多優秀的網際網路公司也會貫徹A/B測試思維。

比如打開APP要加載內容,需要從後端系統里獲取數據,每次獲取20條數據還是100條數據,這個決策就涉及到平衡與取捨,獲取數據越多,頁面加載時間越長;獲取數據越少,用戶瀏覽的時候就需要頻繁刷新。所以到底一次獲取多少數據,也可以提前用A/B測試做決策。

這些看似微細的細節,實際上隱藏著了一款產品成功與否的密碼。

位元組跳動的A/B測試實踐:要數據驅動,但不能唯數據論

那麼,在位元組跳動內部,A/B測試是如何實踐的呢?

早在2012年,位元組跳動成立初期,張一鳴就已經開始在做A/B測試了。現在,內部來說,位元組跳動每天大概新增1500個實驗,服務400多項業務,累計已經做了70萬次實驗。

或許也是基於此,外界有觀點把位元組跳動稱為「A/B測試公司」,對於此,張一鳴曾在公司7周年慶典上表示,「我發過一個微頭條:同理心是地基,想像力是天空,中間是邏輯和工具。AB測試只是一個工具而已,是測不出用戶需求的,同理心才是重要的基礎。如果沒有同理心,做出的產品肯定沒有靈魂,不能滿足用戶需求。但是光有同理心還不夠,這樣只能做出有用的產品。想要做出彩的產品,想像力非常重要」。

不難看出,位元組跳動所秉承的,正是「要依賴數據做決策,但不能只依賴數據做決策」的理念。

對於不能「唯數據論」這一觀點,楊震原直接指出,不能盲目迷信A/B測試,A/B測試並非萬能,在具體實踐上,A/B測試還存在著問題和操作難度。

比如在進行A/B測試之前,首先需要對實驗對象進行分組,再由操作者分別對兩組進行不同的操作,對比結果從而得出結論。

這聽上去似乎很容易實現,但首先如何確定兩個分組的獨立性,就是一個值得考慮的問題。

以網約車的分配策略為例,車輛與乘客的距離,乘車價格,車輛車型和時間都可以作為策略標準,如果A同學做了A策略,B同學做了B策略,身為決策者,我們應該如何評估呢?

如果用A/B測試的話,那我們就需要把用戶分成兩組,A組用A策略,B組用B策略,兩組對比就能得出最終結論。

但細想一下,有沒有可能發生這種情況,即A組乘客和B組乘客同時打到同一個司機的車。也就是說,在實驗過程中,最終得出的統計指標可能存在交叉影響,但這種影響,只從實驗數據上是看不出來、也不容易分析的。

其次,解決了獨立性的問題之後,我們還需要考慮A/B測試中存在的置信度長短期影響的問題。

也正是得益於此般成熟的數據驅動理念,A/B測試逐漸從今日頭條的策略推薦,到建立了支持大規模產品實驗的A/B測試平台,之後陸續接入抖音、西瓜視頻等全線業務,A/B測試也相繼被應用於產品命名、互動設計、推薦算法、用戶增長、廣告優化和市場活動等方方面面的決策上。

如今位元組跳動也希望將這項技術能力反哺給社會。以悟空租車為例,該公司已通過火山引擎進行了70多次A/B測試,約有60%為正向實驗,提升產品轉換率約40%,以往需要一周時間的需求復盤數據分析,現在只要一天就能得到數據結論,更直觀地量化了需求價值,極大地提升了效率。

也正如楊震原所說,企業應充分意識到A/B測試的優勢和缺陷,對目標選擇適合的評估方法。在戰略型決策上,需要專家進行長期思考,在細節決策上,能做A/B測試就儘量做A/B測試,同時還要關注到量化分析的執行能力,真正做到數據驅動科學決策。

文章來源: https://twgreatdaily.com/zh-my/CRpv-HgBrsvY2_Uuo9-N.html