聚焦數據,探索分布式資料庫與湖倉一體的前沿應用

2023-12-22     51CTO

原標題:聚焦數據,探索分布式資料庫與湖倉一體的前沿應用

數字化時代,數據作為企業的重要資產,其管理和利用效率對企業的生存和發展具有重大影響。根據《資料庫發展研究報告(2023年)》,2022年全球資料庫市場規模為833億美元,中國資料庫市場規模為59.7億美元(約合403.6億元人民幣),占全球7.2%。預計到2027年,中國資料庫市場總規模將達到1286.8億元,市場年復合增長率(CAGR)為26.1%。

近期,51CTO舉辦了兩場技術直播活動,圍繞資料庫前沿趨勢和實踐應用,分別以「分布式資料庫應用與挑戰」和「湖倉一體的技術實踐」為主題,邀請了51CTO學堂金牌講師以及資料庫方向的企業技術專家進行分享,幫助用戶更好地了解並掌握資料庫領域的前沿技術趨勢以及落地應用方法。

一、分布式資料庫的應用與挑戰

分布式資料庫系統是一種高效、可擴展、可靠的資料庫系統,適用於處理大規模的數據和應對複雜的業務需求。隨著雲計算和大數據技術的不斷發展,分布式資料庫系統將會得到更廣泛的應用和發展。

51CTO學堂認證講師多哥和星環科技資料庫資深架構師陳潛龍分別進行了主題為「揭開神秘的分布式資料庫」和「星環分布式分析型資料庫實踐之路」的技術分享。

首先,多哥從大數據時代的數據特點、新時代的業務需求、以及使用分布式資料庫的原因這三方面展開分享,講述了大數據時代,企業面臨的數據治理難題以及解決難題的通用解決方案。多哥提到,大數據時代,很多老問題變成了新問題或者大問題。其中就包括算力挑戰與網際網路應用特性轉變。一方面,數據量的激增引發存儲成本與計算成本的不斷提高,同時,管理者也需要時刻關注數據量為整體計算帶來的任何向性變化,以及數據管理的疊代升級對底層架構的挑戰。另一方面,網際網路應用的特性正在逐步轉向物聯網,例如,業務模型從交易型業務(OLTP)轉向到分析型業務(OLAP),數據出現越來越強的異構性變化等。

多哥認為,面對這些挑戰,數據管理者可以嘗試結合分布式編程的思想,從單機編程思維轉換成集群編程思維,從縱向擴展思想轉變為橫向擴展思想以及啟用全新的系統棧。由此,多哥總結了三個解決問題的方向,分別是:分布式資料庫的選擇和引入,靈活便捷的資源調度以及比移動數據更經濟的移動計算方式。

陳潛龍在演講時引用了信通院對未來資料庫技術發展劃分的九個方向和四大目標,提出融合,即架構融合,利用統一架構代替混合架構和平台融合,統一數據湖、數據倉庫、數據集市才是數據平台架構的發展趨勢。陳潛龍表示,分布式分析型資料庫可以替代Hadoop+MPP混合架構。它支持標準SQL語法,提供了多模分析、實時數據處理、存算解耦、混合負載、數據聯邦和異構伺服器混合部署等先進技術能力。提到分布式分析型資料庫的關鍵技術,陳潛龍重點闡述了以下幾點:

第一,統一SQL入口,以均衡負載提升業務並發。同時,基於特定規則將不同的業務,如查詢、跑批,分發到不同的計算資源上,以此實現業務的分流,減少業務間的相互影響。

第二,統一SQL編譯引擎,簡化SQL開發適配,降低開發門檻,提升遷移效率。

第三,統一SQL計算引擎,通過向量化計算引擎,提升性能。

第四,統一存儲管理,支持多種模態數據,多源數據高效融合,促進多模型能力進一步增強。

第五,混合負載均衡管理,將作業與資源池的相互關聯,控制並實現資源的合理利用,從而實現系統資源利用的最大化收益。

第六,在線擴容,集群在線擴容,對正在運行的業務無感知,擴容後性能呈線性增長。

第七,數據塊級別災備,突破地域限制,構建數據安全保障。

第八,智能運維,集成集群管理,SQL開發,SQL監控等能力,實現資料庫一站式運維能力。

陳潛龍表示,企業對資料庫的選型、應用與優化應該因地制宜,從具體需求出發。同時,面對技術發展多變、應用特點多變、外部需求緊迫的現狀,他建議資料庫運維人員不斷學習、廣泛學習,時刻關注分布式資料庫發展,保持足夠的技術敏感度,才能夠緊跟技術發展趨勢。

二、湖倉一體的技術實踐

湖倉一體是一種創新的數據存儲和處理架構,具有強大的數據處理和分析能力,同時確保了數據的安全性和質量,逐漸成為企業主流數據存儲方式。憑藉低運維、低成本、多格式、多功能、高價值、高敏捷、更安全、更靈活的特性,湖倉一體解決方案已在金融、網際網路行業進行規模化應用。51CTO學堂金牌認證講師趙渝強和北京科傑科技CTO高經郡分別帶來了主題為「湖倉一體的技術實踐」和「湖倉一體構築數據智能的新基石」的技術分享。

首先,趙渝強從數據倉庫與大數據技術出發,介紹了基於大數據技術的數據倉庫架構:Lambda架構與Kappa架構,以及大數據計算引擎:Flink與Spark,從而進一步引出了數據湖技術和基於數據湖的數據倉庫實現話題。

趙渝強認為,數據倉庫在本質上就是一個資料庫,在具體實現數據倉庫時候可以使用傳統的關係型資料庫來實現,例如:Oracle和MySQL等,也可以使用大數據生態圈體系來實現。而基於大數據技術的數據倉庫架構主要有Lambda與Kappa兩種。其中,Lambda架構是目前構建數據倉庫選用的主要架構,分為離線數據倉庫與實時數據倉庫兩部分,利用HDFS或HBase存儲離線數據,利用消息系統Kafka來存儲實時數據。對文件數據進行封裝後,提取數據的抽象便於與數據湖進行集成,實現離線數據或實時數據的讀取功能。相較於Lambda架構,Kappa架構只能讀取實時數據,雖然能夠將離線數據作為實時數據的特殊情況進行讀取,但是性能不佳。在介紹了大數據計算引擎Flink與Spark之後,趙渝強又為大家介紹了數據湖的概念和常見的技術框架。簡單來說,數據湖可存儲結構化和非結構化數據,是一種面向大規模、多來源、高度多樣化數據的組織方法。但數據湖本身不提供數據存儲的能力,常見的數據湖技術框架有Hudi、Iceberg、Delta Lake。分享最後,趙渝強還為大家提供了一個基於數據湖的數據倉庫流批一體架構供大家參考。

接著,北京科傑科技CTO高經郡老師為大家帶來了主題為「湖倉一體構築數據智能的新基石」的技術分享。高經郡從湖倉一體架構探索與構建、湖倉一體技術實踐和湖倉一體化平台未來發展趨勢三個方面進行了分享。

高經郡表示,Lakehouse湖倉一體是一種新型開放式架構,充分結合數據湖和數據倉庫的優勢,並構建在數據湖低成本的數據存儲架構之上,它繼承了數據倉庫的數據處理和管理功能,能全面滿足BI、DI、AI應用需求。

而構建湖倉一體的核心要素,高經郡認為有以下三點:

第一,可靠的湖上數據管理:一種開放的、高性能的數據組織格式。

第二,支持機器學習與數據科學:一套開放的、標準的API。

第三,先進的SQL性能:一個極致優化的執行引擎。

但是,隨著湖倉一體實踐的逐漸深入,尤其是當單鏈路的數據量達到分鐘級,每日數據達到萬億規模時,企業就需要格外重視湖倉一體的性能問題。例如:如何平衡流式訪問和批訪問?既能做到高性能和高效,又能做到低成本?在實現分鐘級接近極限時如果繼續加速該如何優化?高經郡認為,想要解決這些問題,需要不斷優化技術架構、提高數據湖計算引擎的能力,通過存算分離、統一元數據服務和查詢引擎等方式不斷優化湖倉一體的性能。

高經郡表示,企業數據架構具有從單一架構走向多架構融合,數據資產由物理性統一走向邏輯性統一的發展趨勢。構建湖倉一體基礎數據底座,保障企業多架構融合平台基礎,從而助力企業構築智能數據的新基石。

結語

隨著信息技術的不斷進步,資料庫技術已經成為企業智能化建設的核心,它不僅存儲著企業的核心數據,還支撐著企業的業務運營和決策分析。

資料庫技術的未來發展將更加注重數據的處理效率和安全性。一方面,隨著大數據時代的到來,企業需要處理的數據量越來越大,資料庫技術需要不斷提高數據處理效率,以滿足企業的需求。另一方面,隨著網絡安全問題的日益嚴重,資料庫技術的安全性也變得越來越重要。未來,資料庫技術將更加注重數據的安全性和隱私保護,採用更加先進的數據加密和訪問控制技術,以確保數據的安全性和完整性。

了解更多直播詳情,您可以點擊【資料庫直播專區】,觀看直播回放,下載嘉賓PPT。

文章來源: https://twgreatdaily.com/4f938a0b0ef330a967955c682ec70cc9.html