「防疫健康碼」背後的數據團隊:中國移動給大數據建設「劃重點」

2020-07-24     大數據文摘

原標題:「防疫健康碼」背後的數據團隊:中國移動給大數據建設「劃重點」

大數據文摘出品

作者:魏子敏

本文為清華數據科學研究院聯合大數據文摘發起的年度白皮書《頂級數據團隊建設全景報告》系列專訪的第五篇內容。《報告》囊括專家訪談、問卷、網絡數據分析,力求為行業內數據團隊的組建和高校數據人才的培養提供指導性意見。前往文末參與填寫問卷,將獲得《報告》完整版~

通信大數據行程卡小程序,相信大家都不陌生。

疫情期間,它不僅是人人手機里必備的小程序,也是外出的必要通行證。

今年4月,為了應對企事業單位的大面積復工復產,並且準確掌握居民個人過去14天的行程,全國一體化政務服務平台上線工信部推出的「通信大數據行程卡」服務,並將行程卡信息納入全國一體化平台「防疫健康信息碼」服務。用戶在信息碼服務中申報行程即可查詢和證明本人近14天的到訪地,不再需要另外開具證明。

在工信部統一組織下,三家電信運營商很快實現了數據整合,為疫情期間的出行和公共健康的防疫管理作出了重要貢獻,包括中國移動在內的多家國內主要運營商都參與其中。但很少有人知道,整個項目從開啟到初版上線其實只花了不到一周。

上個月底,帶著對相關團隊的好奇,大數據文摘採訪了中國移動信息技術中心大數據平台部副總經理尚晶。她所在的中國移動信息技術中心負責中國移動全網IT系統統一規劃、建設和運營,今年還加掛了中國移動大數據中心的牌子,按「一套人馬,兩塊牌子」運作,目前負責大數據相關工作的團隊有近200人

這個團隊可以說是中國移動大數據的一支「集中兵力」,不僅負責中國移動集中化大數據平台系統和應用的建設運營和分析支撐,同時還肩負組織各省近400多人的大數據團隊,推進全網大數據工作的職責。

疫情期間,正是這支數據團隊,帶領中國移動31省大數據精英,與時間賽跑,有效的支撐了疫情人群遷徙、行程查詢、復工復產分析等各項工作,累計提供疫情防控分析報表上萬張

而能在短時間內完成這一切,一個高效的大數據平台和數據團隊必不可缺

20年建設經驗,數據團隊建設「劃重點」

中國移動大數據建設還得從大數據系統的前身——經營分析系統開始談起。

我們從中國移動大數據中心了解到,中國移動的經營分析系統建設從2002年開始,技術上採用數據倉庫。當時大數據這個概念還沒有出現,考慮到初期投資成本較大,國內數據倉庫系統的建設主要是電信運營商、銀行、保險公司這些百強企業。然而隨著數據量爆炸性的增長,一方面Oracle、db2等數據倉庫在存儲PB級數據上開始顯現擴展性不足和非結構化數據處理能力不足的問題,另一方面昂貴的價格,也逐漸成為一個亟待解決的問題。投資收益率的問題開始越來越多地被問及,2007年中國移動研究院首先開始跟進Hadoop的研究,2009年,中國移動開始在省級系統上熱火朝天的開始新興MPP技術、Hadoop技術的試點和大數據平台建設。

這個時期也是網際網路公司開始從IT時代向DT時代演進的前夜。

與運營商的審慎探索不同,網際網路企業的成本壓力和技術實力,促使他們更快的擁抱了開源體系,例如2009年阿里的雲梯1和雲梯2項目。

「這不僅僅是一個技術變革和顛覆,背後更是一個生態變革。」

意識到這個問題的中國移動在2015年明確了大數據建設的組織機構,大規模推進集中化大數據平台的建設,並推進自研BC-Hadoop在現網的落地應用,單集群規模迅速從300台擴展到3000台,整體規模達到2.5萬節點,集團大數據平台的採集數據量從2015年的20TB/日,到達1.9PB/日。應用領域上,更是從決策支撐+營銷支撐為主,不斷向外拓展,內部深入到企業運營的各個領域,包括精細服務、產品創新和高效運維等,向外拓展金融、旅遊、交通、零售、安全等多個垂直領域合作。

儘管系統建設速度和應用構建速度較之之前近乎按數據級提升,但是「還需要大數據支持」的聲音仍然在中國移動的各個層級的單位機構中此起彼伏,2017年開始,集中化大數據平台開始小規模的推廣大數據PaaS開放模式。這個開放平台被命名為「梧桐」平台,意在「梧桐花開,鳳凰自來」,提供儲算資源、大數據處理工具、全網匯聚數據和安全管理能力,向內部各單位開放賦能。

「梧桐」平台一經推廣,得到了巨大的響應,短短一年內就從幾個單位入駐,迅速實現了50個覆蓋省公司、專業公司的數百個項目的入駐。而與此同時變化的是,這個數據支持團隊,也悄悄的拆成了大數據平台部和大數據應用部兩個部門,兩個部門均在近百人團隊,以適應更為開放的服務生態。

「授之以魚」的應用提供方式,到「授之以魚」+「授之以漁」結合的方式,需求部門可以自行選擇「買魚」還是「買船自己出海打漁」

在中國移動大數據中心,這些變化也是在對大數據工作各種困惑的思考中,不斷摸索優化推進的。所有的努力從更理論一點的角度看,其實都是在思考如何將國家新明確提出的「數據要素」真正做到要素化,讓數據能安全的流動起來,流動到所需要它的地方,流轉到企業內部每個需要數據賦能的環節,也包括數據要素在跨行業合作中產生「化學反應」,創造新的產品、新的價值。

目前梧桐已經成為中國移動數據中台的品牌,引入更多的新技術提升數據中台的計算效率和實時性,提高數據中台開放敏捷性、易用性,加速應用創新是目前團隊考慮的主要問題。

平台搭建好之後,數據團隊需要進一步考慮的就是如何衡量大數據的價值。尚晶表示,這個問題是從經分時期就一直在被問的問題,但或許到現在也仍沒有一個完美的答案,目前主要有以下幾個考量角度:

1. 滲透行業領域的廣度考核,比如金融行業、零售行業、交通行業、旅遊行業、公共安全行業等行業,形成了哪些賦能應用。

2. 帶來的經濟價值或者間接經濟價值,例如由於採用大數據,同等營銷資源投入下,營銷成功率的提升,大數據分析發現的收入漏損,大數據直接產生的政企行業合作收入。較難計算的是間接經濟價值和拓展行業的機會成本,例如企業專線銷售與打包的大數據服務,收入占比較難衡量。又如基於大數據分析,面向市場設計的產品,多少價值應該計入大數據帶來。

尚晶也給我們舉了個例子。普通的營銷方案成功率可能就在1%,在流量市場這個比例甚至更低,但無論營銷成功與否,營銷成本還是需要花費的,比如外呼人員成本、簡訊埠信息成本、優惠券成本,這些都是成本消耗。如果採用大數據分析,可以得到一些更精準的目標群體,根據這些有針對性的有效目標群體做營銷,成功率就會從1%上升到5%,提升了5倍,同等成本獲取了更多的營收。公司給的營銷費用要和成本費用一樣,需要和收入一起納入考核。

輔助業務部門決策,分析師要懂業務更要懂用戶

大數據可以發揮價值的角度多種多樣,這一點毋庸置疑。但聚焦到輔助業務部門做「數據驅動」的決策這一工作上,中國移動也探索了自己一套行之有效的運作方式。

我們從中國移動大數據中心了解到,中國移動大數據中心有一個分析師團隊,他們除了為市場等業務部門提供各類分析數據,還會基於數據去深度挖掘業務中存在的問題。這個分析師團隊目前大概有20多人,每周為公司領導提供覆蓋全網、不同角度、不同領域的分析,這種分析有效對公司高層的決策起到很好的參考支持作用。

例如在市場競爭中,中國移動部分省公司的客戶流失率或價值流失影響很大,那麼數據團隊就會去分析,為什麼流失率這麼大,省間差異的原因?移動能與其對標的產品套餐是怎樣的?主要流失用戶的特徵是怎樣的?如何發現客戶在離開之前的行為異動,及時溝通挽留?又如中國移動咪咕閱讀的推廣,如何將用戶分類,青少年、中年人等人群的閱讀喜好,如何分析競品業務數據?如何引入更好的內容,並精準推薦,保持用戶粘性。

除了集中的分析團隊,中國移動在各省和專業公司內部也在推進業務與大數據分析的融合團隊,發揮整體優勢,面向實際業務運營,充分發揮大數據價值。例如中國移動向用戶提供2018央視世界盃新媒體直播權益推廣,數據團隊就會將世界盃比賽時間和球隊粉絲的活躍度進行關聯,並挖掘其中的必然聯繫,用其中的聯繫特徵來做營銷方案,並根據用戶人群進行有效劃分和推送。比如是青少年,那麼應該推送應援物資的售賣渠道,如果是中年人,那麼應該注重的是中年人更為關心的內容,進球精彩瞬間等。又如5G營銷,各省也是先進行了客群定位,對客群和潛在市場進行分析,再制定營銷計劃,包括做營銷的排期,營銷的資源投入,營銷渠道的資源顧客。推送之後,可能會產生沉默用戶,這個時候再做沉默分析,比如分析出時間不對,一邊採用大數據分析結果一邊調整。

「做分析必須要懂用戶心理。」

比如說中國移動的花卡推廣,面向的是熱愛娛樂的青年群體,分析師需要從青年群體的喜好角度去分析,才能充分獲知用戶購買動機,更傾向的優惠促銷品,洞察業務設計中合理性。

在懂得用戶心理與需求的情況下,分析師需要更為多元以及完整的數據。分析師除了要做分析以外,還需要對業務深入理解,分析師會需要一些來自數據團隊的支撐,比如對業務數據的解釋以及根據數據得到的建議。在中國移動除了分析師團隊,還在打造數據團隊,兩個團隊以數據需求為紐帶形成持續的數據應用與探索+新數據引入與治理分工協作的良性循環。

用戶行程分析,數據安全如何保證?

除了分析用戶的喜好和日常來分析業務,疫情期間,為了公共安全和安全防疫,中國移動的數據團隊也全程參與了通信大數據行程卡項目。通信大數據行程卡是基於用戶位置數據的,因為數據相對敏感,在技術保障和用戶授權問題上,中國移動的數據團隊也時刻把用戶的隱私數據放在第一位。

中國移動大數據中心的處理方式有以下幾個原則,首先根據網絡安全法,採集數據使用數據必須都得到用戶的授權。用戶的授權體現為用戶入網的時候的協議和合約,移動為用戶提供服務時會採集一些數據。在使用用戶數據時,會再次請求授權,並明確告知數據用途,比如像採集用戶對內容的喜好以及相關的數據,根據這些數據對用戶做一些推薦,如果沒有用戶的授權將無法運用數據。用戶可能已經留意到行程卡等用戶數據查詢,都通過簡訊確認碼或要求輸入身份證後4位,作為用戶二次確認依據。

除了在用戶授權和安保措施以外,中國移動數據團隊對數據安全也有做非常多的技術方面的措施。數據在系統里均為加密存儲,並按需進行了模糊化和脫敏處理,數據訪問權限按最小授權原則,數據操作遵守嚴格的安全審核審計金庫管理模式。數據分析人員無法了解數據與真實用戶的關聯,因此可以保證對個人客戶隱私數據的充分保護。

給好的數據團隊下個定義?

採訪的最後,我們也請尚晶給「好的數據團隊」下個定義。尚晶告訴我們,其實她一直在思考這個問題,回答好這個問題才能明確團隊未來努力方向。

但這不是一個容易回答的問題,需要放到快速變化的、公司內外部、技術與生態的環境里去思考。一個團隊成功要有別人難以超越的長板,但是一個團隊的長久成功需要沒有明顯的短板。

「對於成功的數據團隊,有很多取得共識的分享,包括從組織上、管理機制上、技術水平上、數據能力、應用價值、行業口碑、市場收入上,數據中台的爭論已經有各種反轉又反轉。歸根結底還是成功的中台經驗是相近的,而失敗的中台各有各的失敗,也就是短板」。回歸到IT本職和她所從事的大數據中台工作,尚晶希望從三個層級去描述大數據的評價體系:「數據融合」、「開放共享」、「賦能創新」。

  • 數據融合:數據覆蓋範圍是否充分?是否建立完善的數據管理體系,有效保證數據完整性、可靠性和及時性?是否有先進的技術架構,有效捕捉業務數據,實現高效儲算並敏捷為業務提供數據服務調用?
  • 開放共享:是否適應複雜的需求場景?是否有適配公司的組織機構的開放模式?是否有高效的復用度和支持度?是否有開放的數據字典,可為使用人員充分理解?是否有豐富、便捷部署,易用性好的工具?是否有敏捷的、有SLA保障的開放流程?
  • 賦能創新:是否能有效賦能公司的目標市場,就中國移動而言即CHBN四輪市場?是否有助於公司創造新的增長點?是否彰顯國企服務民生的擔當?

這也是中國移動大數據中心對數據團隊未來發展方向的期望。尚晶認為數據團隊首先還是要配合業務的發展,需要對行業進行深入挖掘和分析,還有對客戶群體的深入分析,滿足客戶不斷增長的新需求。

「中國移動的大數據,發展潛力還很大,還有很多值得探索,做深做廣的領域,未來中國移動集團公司也要求在數據團隊加大人才培養力度,建立更加靈活的機制選聘行業專家加盟,共創未來。」

文章來源: https://twgreatdaily.com/zh-tw/dHuFf3MBiuFnsJQVABlc.html