一.寫在前面
數據技術的演化從數據倉庫到數據中台,再到數據飛輪,反映了企業在數據管理和使用上的需求從基礎的存儲、查詢向更高效、更智能的方向發展。現在來談談每個階段的技術架構理念以及其特定的目標和側重點。
二.數據技術進化歷程
縱觀大數據的發展史中,數據倉庫概念的提出可以說是為大數據的發展提供了基石,它可以追朔到上世紀80年代,由IBM的研究人員提出的商業數據倉庫概念,本質上還是希望能從操作型系統進化到決策分析系統,解決多重數據複製帶來的高成本問題。數據倉庫的核心是數據的集中化存儲,主要面向決策支持,提高企業人員決策的有效性。其典型特徵是結構化數據和批量處理,將數據通過聯機分析(OLAP)處理、以數據立方體形式呈現,多維數據分析,常用切片,鑽取等,數據一般來自業務系統的ETL(抽取、清理、裝載、刷新)過程。
隨著數據量和數據類型的增長,數據倉庫對非結構化類型的數據的處理收到限制,因為其主要是接受處理來自於傳統資料庫下的表格數據。隨著企業數據來源的增長以及業務場景的複雜化,數據中台的時代來臨。它不僅僅是數據的集中存儲,其更關注數據的治理、服務化和共享。
說到數據中台,這就不得不說下其興起的緣由。數據中台在國內的興起還在2015年,阿里巴巴拜訪芬蘭的一家公司後,感嘆中台的強大,首次提出「大中台、小前台」的策略,其意思就是將支持類似的業務工作放在中台,讓中台擔當支撐的工作,讓小前台離一線更近,貼切客戶,使得業務更新更加快速。其核心理念就是提供數據服務。通過整合各種數據源,構建統一的數據資產平台,為前台的業務系統提供標準化、可復用的數據服務。這一點就與政企行業大數據採集、和應用方面高度契合,所以很多公司看到它的優越性,也投身於研發自己的數據中台,包括位元組、騰訊等大牛。最具代表性的莫屬於阿里出品的阿里數據中台了,它可以算是國內數據中台技術探索的問路石。
從數據中台的演進旅程來看,其實它就是數據倉庫的下一代產物,也是業務和技術共同推動下的必然產物。最初,企業通過建設數據倉庫解決了歷史數據的存儲和管理問題。然而,隨著企業規模擴大,數據量呈現爆髮式增長,傳統數據倉庫逐漸顯得臃腫低效,缺乏靈活性。與此同時,大數據技術的發展顯著提升了數據處理的能力,使得高效、敏捷的數據開發和數據服務成為現實。
雖然數據倉庫到數據中台的轉變大大提高了企業的業務響應速度,也解決了信息孤島的問題,但是構建數據中台還是需要對業務有深入的了解,深度依賴於人工配置和管理,這種花費的成本還是很高的,所以技術理念更為先進的技術飛輪應運而生。它依託於數據中台,將數據的生產和消費閉環化,通過持續反饋和疊代推動業務的增長。
有很多人認為數據飛輪是數據中台的高階形態,但我認為二者之間還是有本質差別的。下面且聽我娓娓道來。
在CHATGPT為首的AI大模型出世以來,就肯定意味著AI將會給我們的產業帶來新的一輪革新。數據飛輪強調數據的自動化收集、處理和反饋,利用AI和機器學習等技術不斷優化業務模型和決策流程。通過集成AI和機器學習技術,飛輪不僅能夠實時分析海量數據,還能不斷調整和改進業務模型。AI算法能夠識別數據中的模式和趨勢,預測未來的需求變化,進而自動調整策略和運營流程。這種動態的優化過程確保了企業始終能夠基於最新的數據做出決策,提升業務靈活性和響應速度。飛輪系統還能夠通過持續的數據反饋機制,不斷驗證和完善業務假設和模型。每一次優化和調整都基於實際的數據結果,使得業務決策更加精準和可靠。這種閉環反饋不僅幫助企業在複雜多變的市場環境中保持競爭力,也推動了創新和業務增長的不斷加速。
當前,數據飛輪的應用最早在火山引擎中得到實踐,基於位元組跳動的數據驅動方法。它可謂是得天獨厚,擁有今日頭條、基於數據分析選品、調度的抖音直播兩大平台。但是就目前而言,然而,儘管數據飛輪的潛力巨大,其實際落地仍面臨一些挑戰。
其一是因為AI大模型的成熟度仍然有限。雖然機器學習和人工智慧技術已經取得了顯著進展,但大模型的訓練和應用仍需要進一步的發展和優化,以充分發揮數據飛輪的潛力。當前,很多AI大模型在處理複雜問題時仍面臨計算資源和數據質量的瓶頸,需要持續的技術突破和疊代更新;數據資產的私密性也是一個重要難題。許多公司對自己的數據持保留態度,不願意將數據共享或外泄。這種數據隱私和安全問題限制了數據飛輪的廣泛應用,因為有效的數據驅動模型需要大量的高質量數據進行訓練和驗證。企業在數據共享和保護之間需要找到平衡,確保數據的安全性和隱私性,同時又能利用數據驅動業務增長。
因此,儘管數據飛輪在位元組跳動等前沿企業中取得了一定的成功,廣泛應用仍需解決AI技術的發展、數據隱私保護等實際問題。隨著技術的進步和行業標準的完善,數據飛輪有望在更多企業中實現落地應用,推動數據驅動的業務增長模式變得更加普遍和高效。
三.寫在最後
數據倉庫通過存儲大量結構化數據,支撐企業的戰略決策。但隨著企業業務的多樣化和數據來源的複雜化,數據倉庫難以應對非結構化數據和快速變化的業務需求,因此數據中台的出現進一步增強了數據的治理和靈活使用能力。而數據飛輪的出現則進一步通過數據驅動業務,形成自動化的閉環,不斷優化和疊代,減少人為干預,使得數據與業務相互促進,實現業務的持續增長。
文章來源: https://twgreatdaily.com/zh/aee1e0ccf869a4d67e2a8e9c9e383874.html