大數據文摘出品
作者:朱玲
本文為清華大學大數據研究中心聯合大數據文摘發起的年度白皮書《頂級數據團隊建設全景報告》系列專訪的第六篇內容。《報告》囊括專家訪談、問卷、網絡數據分析,力求為行業內數據團隊的組建和高校數據人才的培養提供指導性意見。前往文末參與填寫問卷,將獲得《報告》完整版~
「你每一次花錢,都是在為自己想要的生活投票。」
2010年3月4日,美團網站上線當天,美團創始人兼CEO王興發出了這樣一條微博,希望以「吃」為核心,去打造一個幫大家吃得更好,生活更好的全方位生活服務平台。
當然,要協調日訂單已經突破3000萬單的外賣配送以及包括快驢、買菜、單車、酒旅在內的多個業務線,一個穩定、強大的數據基礎架構必不可少。
王興給美團定的下一個目標是每天服務十億人次,這個並發量對美團數據團隊來說,將是不小的挑戰。但同時,為了應對異常複雜的業務場景,保證跟技術的極致融合,美團數據團隊也發展出了自己獨有的特點。
「指揮部」核心支撐,「小兵團」靈活作戰
據美團數據平台負責人李聞介紹,從宏觀方面來說,美團內部整個大數據團隊主要涵蓋兩大技術方向:一個是數據研發方向,涵蓋面向數據資產的數據清洗、加工、整合、挖掘、管理、運營等技術領域,主要包括批處理和實時數據倉庫的建設、數據管理、數據價值落地以及數據運營;另一個是數據系統研發方向,涵蓋批處理、實時數倉開發工具鏈、BI系統、數據管理系統等數據系統研發。
大數據團隊作為一個整體,希望通過數據內容建設、數據系統建設,來提升美團整個公司數據質量、數據效率、數據安全,以數據驅動的方式幫助公司完成業務目標,持續提高公司的運營效率和核心競爭力。
美團數據平台&機器學習平台
但是,涉及到實際的業務時,美團跟不少單一業務線公司「數據團隊中央化管理」又有所不同,他們採取了基礎研發部以「指揮部」的形式核心支撐,各業務線通過自有的規模較小的嵌入式數據閉環形成「小兵團」,靈活高效的完成單線任務。
李聞說,美團是多業務線多BG的組織形式,每一個業務線都有自己的研發團隊,即每個BG下面有自己的數據工程師(DE)和數據科學家(DS)。其中工程師團隊主要負責中心化的公共數據建設,而數據科學家團隊則是面向公司集團層面的經營分析和決策,一些涉及公司重大發展方向的戰略性問題,都會優先進行數據分析再進行決策。
而在每個業務的「小兵團」之下,也有一個中心化的大數據團隊,服務對象是全公司所有的業務線,為全公司所有的BG業務線提供能力支撐,這點與其他網際網路公司相比也有很大的不同。
這個中心化的大數據團隊,對全公司所有業務線提供全公司統一的數據技術平台和公共數據內容平台支撐,以及面向集團的商業分析支持,除此之外,美團中小業務在孵化階段,也由這個大團隊提供人力、技術資源支撐,快速建立數據能力。
這一組織形式是由美團複雜的業務場景特點決定的。
美團目前有超過200個生活服務場景,每個場景都具有自身的業務特點和數據維度特點,如果只是通過平台式的數據中心來進行相關處理,無法實現最高效的數據處理和靈活的技術疊代。而中心的平台能夠在其中實現最大限度的資源協調,並從集團層面處理可復用性的公共數據,整體負責整個公司的公共流量、公共維度,還有一些和用戶相關的用戶畫像都數據內容。
以美團金融服務業務為例,數據工程師的工作職責包括以下幾個方面:
- 搭建並優化金融服務數據體系,包括數據倉庫、數據應用和實時統計等系統的開發,及對安全性、存儲計算成本、查詢性能和使用體驗進行綜合優化。
- 參與商業智能系統建設,建設PB級高效、靈活的在線分析、自動歸因和智能預測。
- 為各類業務場景提供綜合數據解決方案,包括數據生產採集、安全合規、實驗設計、評價監控、數據挖掘和智能決策等。
對美團來說,金融服務是極重度的數據型業務,業務的高效運行和有效決策都依賴於數據技術的支撐。另一方面,數據是金融科技的前沿,美團希望通過網際網路數據技術的發展和應用,幫助合作的金融機構提升技術生產力,從而促進整個生態的發展。
四大發展階段,數據團隊承擔著不同的角色
作為一家非常重業務的公司,美團業務經營核心訴求包括戰略決策、經營策略、運營策略(從人工運營到機器運營),而這些都離不開數據的支撐。
但是,隨著信息技術的發展和普及,產生數據的信息源越來越多,獲得洞察所需要的信息也越加豐富,但是這些錯綜複雜甚至是無序不規範設計的信息系統的數據是不一致的、分散的,所以就需要有一個非常重要角色把這些數據進行重新的清洗、整合,形成統一商業視角下的數據「模型」。
訪談過程中,李聞也從「網際網路業務」整個生命周期的視角解讀了數據和的價值和數據團隊在這一周期過程中的發展階段:
1.初創期:這是業務從無到有的階段。此時企業經營的重點是找到讓人信服的商業模式。對研發的訴求主要是後台和前端,讓面向用戶的產品能夠運轉起來。此時公司對數據的訴求主要是一些基礎指標的表現,用以判斷商業模式的合理性,往往讓了解數據產生機制的後台和前端同學承擔數據統計工作就可以了。當然,在基礎比較好的團隊里,可以通過敏捷的統計工具直接連接數據源,寫SQL統計數據並做基本的數據展現。基礎類的數據指標工具比如美團的「魔數」在此時發揮的作用最大,屬於一個基礎設施。
2.成長期:在這個階段,商業模式已經被證明是可行的,進入擴張規模搶占市場階段。業務規模快速膨脹,此時的數據量也隨之大量增加,需求也在不斷疊代。既要保障現有任務的穩定性,還要快速支持蜂擁而至的需求,需要打好數據基礎,做好需求管理。該階段是對數據技術壓力最大的階段,更多是如何高效應對需求且保障現有任務的穩定性和數據的準確性。
3.成熟期:在保障規模下追求「毛利」為正。此時,企業經營的基本思路已經成型,需要系統建設指標體系,利用數據科學嚴謹的指導經營,並利用用戶畫像等技術更精細地理解用戶從而精準營銷,提高運營ROI。此時需要做好數據的治理以及內容的體系化管理。比如美團數據中台就是在這個階段演化出來的。
4.持續發展期:這屬於通過數據來擴大利潤的階段,企業需要結合對業務的深刻理解和行業的發展趨勢,採集和整合更多元的數據內容,結合本業務特點,發現高價值用戶、挖掘更多商業機會、輸出更多增值服務,豐富業務的利潤結構。此時,還需要更深刻的理解用戶,理解數據,通過數據產生更多洞察,提高經營效率。數據開發領域的終極發展目標,應該是懂數據開發(集成)技術,懂產品的業務邏輯,懂商業,懂分析,懂經營策略,懂運營策略,同時還能推動各相關角色配合行動的綜合性人才。數據源越複雜,為保障交付數據的準確性,挑戰就越大,數據開發的核心價值就越大。
「走在業務前面思考問題」
「走在業務線前面主動去做一些工作,每當業務碰到的問題時,最好平台都有解。」
在談到如何定義一個好的數據團隊時,李聞如此回應。因為美團屬於跨業務線、多BG的模式,這讓每個業務線的數據都存在很大的可復用性。那麼,如何在兼顧安全的前提下,讓各業務線能夠更高效地用到跨團隊數據呢?這也是業界不少數據團隊在建設初期面臨的一個比較棘手的問題。
美團目前的解決方案稱之為「分場景分角色安全域」,即在整個數據體系中按照數據、算法、商業分析分場景分角色建立安全域,在保障數據安全的同時,簡化授權模型,建立起一套比較清晰的數據權責體系,減少數據供給方和需求方的數據交換成本。
另外,溝通機制和認知提升也很重要,美團數據團隊不傾向於把大數據和業務線分隔得太清晰,一方面直接深入到業務線,積極響應每一條業務線的需求,另一方面也在構建底層基礎能力,大力研發,不斷進階,為未來的業務發展做好充足的準備。
大數據平台是重要「基礎設施」,支撐AI和大數據兩條線
此外,為了讓整個工程團隊和基礎架構團隊能夠最大效率地發揮效用,美團的大數據平台和機器學習平台是在組織和平台技術上是重合的,這種設置在業界也非常少見。
眾所周知,AI是目前網際網路領域炙手可熱的「明星」,無論是老牌「巨頭」,還是流量「新貴」,都在大力研發AI技術,為自家的業務賦能。
在剛剛過去的世界人工智慧大會上,美團首席科學家夏華夏首次公開呈現了美團AI的建設圖譜,在這一圖譜中能看到李聞所在的大數據平台部門是美團AI建設的一個重要「基礎設施」,同時支持著大數據和機器學習兩條線。他認為,公司數據團隊之所以發展成這種形式,從本質上講,是因為大數據和機器學習兩個領域底層的基礎設施和能力實際上是可以「共用」的,包括一些工程方法也比較類似。
李聞說:「大數據和機器學習平台技術,其實在技術角度沒有清晰邊界,在其他公司強行拆在兩個團隊,更多是組織和人的原因。」
「比如做數據清洗,一樣會用到數據挖掘算法,做一些深度學習中前置的特徵處理或者特徵準備,實際都在用大數據的技術。其次,大數據和機器學習底層的一些架構技術、工程方法和能力模型實際是很類似的,包括一些分布式的技術,都是可以復用的。美團這種組織形式,在實際工作中,確實對提高工作效率有非常大的助力。」
數據治理老大難,在支撐和治理間尋求平衡
由於美團的業務線眾多,應用場景也非常複雜,跟其他網際網路公司一樣,美團也在同樣面臨著數據治理的問題。在業界,數據治理有兩大難題:數據資產治理和數據成本治理,其中數據成本相較於業務成本的投入會呈現長期累加的特徵。那麼,如何在效率和成本之間找到平衡,李聞詳細講述了美團採取的自主摸索的方法。
據李聞介紹,從數據源頭整個加工到產出報表再到使用,其鏈條會非常長,涉及的角色也非常多,變量也很多,伴隨著業務系統的變化,中間的數據邏輯,以及指標口徑定義也會隨之變化。如何去管理這樣的一些變化,去拿到一些預期的數據結果,就是一件非常具有挑戰的事情。
數據平台團隊作為公司中心化技術團隊,同時需要扮演兩種角色,一方面要以客戶為中心,提供能力支撐好公司各業務在大數據和算法領域的工程技術需求,另一方面同時要扮演公司的治理抓手,驅動整個數據、算法體系成本、效率、質量、安全的提高,「我們本質上有兩撥客戶,一波是公司各業務數據、算法研發,一波是公司管理層,同時滿足好兩撥客戶的訴求,是需要極大的韌性、極強的技術能力的」,在談及數據治理問題時,李聞表示。
資源內部按錢結算是美團在成本治理層面所使用的核心策略。在這一策略的支撐下美團在2017年就已經做到了內部的雲化和資源按錢結算,在美團內部,數據平台對每種資源類型都會有定價,各條業務線技術負責人提出儲存和計算的需求,業務線BM可以直接看到本業務線在大數據上花多少錢,數據平台會從技術視角Review資源需求的合理性,最後結合全局優化目標將資源轉化為機器採購,提交給雲計算。數據平台除了作為公司大數據成本的技術把關人,同時也提供能力和工具支持各業務線成本優化,以及在底層引擎層面做持續的疊代和優化,底層引擎每年都會有接近10%的效率提升。
「實際上,通過這樣一套機制能持續去推動每一個業務線去做優化。因為每一個業務線都有一套自己的商業模型,要去核算自己的成本和收益,你只告訴他們花多少資源,花多少機器,實際上是沒有什麼幫助的。
」如果從這一角度而言,在業界,美團算是一個「先行者」。
從支撐業務到驅動業務
目前,美團的數據平台技術體系,早已經度過了「基於開源搭一搭,魔改一下就能解決問題」的階段,業界開源技術已經不能滿足業務需求,需要在部分領域構建能力做自研。另一方面,也度過了「對外對標業界技術、學一學就能坐時光機少走彎路」的階段,由於美團業務特點和發展階段,數據平台技術領域碰到的問題,很多是獨特的,通過對標業界已經無法獲得更多有效輸入,已經需要通過緊密結合業務問題和領域技術發展趨勢,向內深度自我洞察、自我反思,在領域內自我技術突破、從工程技術支撐業務到工程技術驅動業務的轉變。
「美團整個數據平台技術在業界應該還是比較靠前的,例如整個架構技術,很早就解決了大規模數據複雜關聯場景多地域的平滑擴展性問題。」在談及美團技術優勢時,李聞表示,「我們很早就做完了計算引擎的內存化升級,持續做計算效率的一些疊代,在成本治理領域是比較獨特的。另外,在整個工具層面實際是一套平台,一個大的集群。而其他很多公司只是一些小的平台或者小的自建的集群,數據打通共享是個大問題,當然這跟公司的發展階段有很大的關係。在機器學習訓練部分,我們可以做到700並發0.7倍的加速比,推理部分BERT模型性能可以超越業界state-of-the-art 1~2倍的樣子,雖然取得了一些成績,但是未來的挑戰也很大,美團數據團隊還是會本著求真、務實的心態,長期有耐心,去迎接這些挑戰。」
網際網路下半場,數據團隊的未來
2020年3月4日,美團迎來十周歲的生日。
根據美團2019年年度財報顯示,美團平台上有單騎手數量已經達到了399萬,高峰期外賣日訂單量達到了3000萬單,超過4.5億的用戶在美團上獲取生活服務,而線上有超過610萬的商戶……這些數據背後能帶來的產出對美團來說是一筆重要的財富。
也正是因此,數據團隊在美團的位置舉足輕重。問及在權衡數據團隊的商業影響力方面的思考,李聞提到數據技術團隊的KPI主要看兩部分,一是能不能支撐好全公司所有數據團隊的工作,比如開發效率、數據使用效率等;二是要考慮與全局數據成本、全局數據質量相關的一些KPI。
李聞說:「在美團有一條非常重要的價值觀,就是追求卓越。未來的路還很長,美團數據團隊也希望能夠挖掘出更多的數據價值,並將這些價值轉為生產力,幫助公司乃至幫助社會提升效率,創造出更大的價值。」
文章來源: https://twgreatdaily.com/zh-hk/hf-OnXMB9ODqL9zEMTG8.html