計算範式巨變前夜,雲器發布多雲及一體化數據平台雲器 Lakehouse

2023-07-21     InfoQ

原標題:計算範式巨變前夜,雲器發布多雲及一體化數據平台雲器 Lakehouse

作者 | 雲器科技

數據已成為推動企業、行業、產業發展的巨大推動力。作為「數據價值提煉者」,數據平台是企業數據體系的關鍵一環,幫助企業優化數據管理、提供數據分析決策建議,更快實現數據資產化。

從網際網路到雲再到大模型,一波波技術創新浪潮背後是指數級上漲的數據量,讓企業在構建數據平台時需要投入更多的人力成本、時間成本和財務成本,才能跟上業務發展的需求。然而, 數據平台架構複雜度高、人力成本高,讓企業數據價值最大化、數字化轉型進程遇到了瓶頸。數據平台如何降低使用技術門檻、降低企業運營成本,加速數據分析創造更大數據價值是平台從業者面臨的核心問題。

7 月 20 日,雲器科技舉行首次對外的產品發布會,首次推出新一代「 多雲、一體化」的數據平台 雲器 Lakehouse,提出 增量計算新範式,並基於增量計算構建 「Single-Engine」一體化平台,在湖倉架構之上,實現 批、流、交互三種分析模式的統一。為企業提供開箱即用、高性能、低成本的數據平台,幫助企業真正讓數據變為生產力,向科技型數字化企業轉型。InfoQ 作為戰略合作媒體支持了本次發布會的落地。

隨著技術不斷成熟,一體化、更簡單、免運維的商業化數據平台服務已成為企業的主流選擇。海外大數據行業的代表企業之一,Snowflake 既是以多雲獨立、一體化的數據平台和 SaaS 化的業務模式在全球廣受認可。由於技術生態、用戶生態和市場環境的差異性,國內關於「中國版 Snowflake」的呼聲一直存在,雲器 Lakehouse 希望成為「中國版 Snowflake」,面向企業需求,以多雲獨立的一體化 SaaS 化服務,填補國內市場的空白。

雲器科技創始人 &CEO 喻思成表示:「多雲、一體化是數據架構演進的必然方向。普惠、極致簡單、極致彈性的數據平台是當下企業的共性需求。雲器科技以『 改變數據的使用方式』為使命,聚集了業內專家成員,歷時兩年推出完全自主研發的雲器 Lakehouse,幫助企業級數字原生客戶更靈活、更高效、更安全、更經濟地發揮數據的價值。」

1打破 Lambda 架構,Single-Engine 統一「離線、實時和交互分析」

大數據的快速發展根源於以 Hadoop 為核心的開源技術。行業早期,因技術生態還未足夠 成熟,企業往往選擇組合不同的開源組件自建數據平台,通常使用 Lambda 架構 。

但是,組裝式 Lambda 架構一直存在 四大問題亟待解決:

第一,不同組件開發語言不通,帶來較高開發門檻,對開發人員不夠友好;

第二,多組件,多套元數據,帶來大量的計算和存儲冗餘;

第三,多組件架構複雜,帶來極高的運維成本;

第四,缺乏滿足業務變化的靈活性。

這些問題困擾業界多年,很多產品和企業也嘗試解決這些問題。由於流處理和批處理的計算模型、數據驅動方式以及存儲系統設計均不同;批處理和交互分析的計算模型、存儲模型、調度模型、資源模型也不同。因此,企業想要統一離線、實時和交互分析變得尤為困難。

2基於增量計算新範式的 Single-Engine 數據平台統一流、批、交互三種計算模式

雲器科技聯合創始人兼 CTO 關濤表示:「由於流、批、交互三種計算引擎的計算模型、數據驅動方式、存儲系統設計、調度系統設計、資源模型等均不相同。他們都很難覆蓋另外兩個場景。統一三種計算模式,需要一個新的計算範式,我們提出「 增量計算」。」

增量計算指的是將所有計算抽象成增量的形態,實現數據的次計算、累次使用,節省計算資源同時,能提供靈活調整的「增量時間間隔」,達成批處理或者流處理效果的服務。

「如果將增量時間間隔調整為 0,數據平台將提供實時計算;如果調多增量時間間隔,數據平台將實現離線批處理。」關濤解釋道。企業不再需要使用單獨的流式開發語言編寫增量處理的複雜業務邏輯,復用離線數據加工的處理邏輯即可構建實時任務。

3新範式平衡「數據不可能三角」,將控制權交回給企業自己

雲器科技聯合創始人兼 CTO 關濤表示:」Single-Engine 的核心使用『增量計算』的新計算範式, 在數據新鮮度、查詢性能和成本的『數據不可能三角』上支持多種平衡點,做到了把平衡的控制權交回給企業自己。

同時,在雲器 Lakehouse 數據架構中,底層的湖倉平台真正實現了數據湖和數據倉庫的融合(湖倉一體),所有的結構化、非結構化數據統一存儲在湖倉架構中,只存一份數據;同時為了支持上層增量計算形態,雲器在 Lakehouse 基礎上實現了增量存儲能力,最終數據底盤實現為「 具備增量存儲能力的 Lakehouse」。

雲器 Lakehouse 的 Single-Engine 核心引擎已經展現了卓越的性能。

在批處理和實時分析場景上,雲器 Lakehouse 在多種標準 benchmark 上比主流開源和商業產品快 3-9 倍。

流式計算方面,在 Process、Aggregate、單流 Join 和雙流 Join 四種主流場景下,雲器 Lakehouse 相比開源流系統 Apache Flink 做到了更靈活的調節能力,並在近實時場景下,比 Flink 有 10 倍—1000 倍的成本節省。

4多雲、一體化的數據平台幫助企業做到數據使用更簡單

雲器 Lakehouse 在湖倉一體和 Single-Engine 的基礎上,基於彈性虛擬計算(Virtual Cluster)支持離在線的一體化分析,可以實現開箱即用、秒級彈性資源、按量付費。

Single-Engine 一體化設計,發揮了一體化數據平台的「自適應」特性,可以按企業所需支持各階段的企業級數據應用,替代多種開源組合技術組件,包括常見的 Spark/Presto/Flink/Clickhouse 的平替方案,對初創型企業非常友好。

七良表示:「一體化是共識的方向,雲器選擇了自研 Single-Engine 的方式,獨特之處在於可以更好地幫助企業平衡:性能、成本、數據新鮮度。使得平台架構和使用更簡單。」

5一體化數據平台,幫助企業實現 BI 與 AI 共生

雲器科技聯合創始人兼 CPO 七良表示:「數據不僅僅只是為了 BI 分析。同一份數據能夠同時服務於 BI+AI, 實現 BI+AI 共生,是雲器做 Lakehouse 產品的初心。

以出行場景為例,出行導航的路況是利用歷史路況信息(結構化的數據)+ 車輛軌跡點數據(實時半結構化數據)結合生成的。在車輛少、探測車輛行為異常的道路上,信息不準確的情況一旦出現,車企可以通過行業情報數據比如實時路況圖片,通過 AI 模型分析這些非結構化數據,增強已有路況數據的準確性。

雲器 Lakehouse 還集成優化了 AI 能力以優化數據鏈路和降低數據平台使用門檻。當前,行業內存在一個明顯的痛點是用戶建模和分析業務本身仍然非常複雜,現有的優化方案中依然有大量的人工工作,優化程度遠遠不夠。

因此,在 AI 已經成為計算領域一等公民的今天,雲器科技探索推動一個 AI4D(AI for Data)的新方向,通過平台自主學習數據和負載的特性,做基於算法和 AI 的自動化調整,來滿足多變的業務需求,讓每一位企業人員都能低門檻使用數據平台。 AI4D (AI for Data)指的是基於 Learning based 方法和 AI 算法的平台優化方向

關濤認為:「數據平台能否支持好 AI、並利用好 AI,已經成為衡量新一代數據平台的新標準。」

如今,雲器 Lakehouse AI4D 已經實現:打破基於專家經驗的優化,利用數據分析,機器學習和 AI 算法優化數據平台;在數據建模場景上,通過 AI「學習」整條 pipeline 和一段時間的歷史查詢情況,實現自動 MV 抽取,自動預計算,自動性能 / 成本的平衡。

雲器使用 AI4D 技術,在標準數據集測試得到了 ~16% 的總資源節省,如通過 MV 轉預計算,查詢時提升 30%~ 4 倍的性能收益。

在實際客戶的數據集中,測試達到了 40% 的資源消耗降低和預計 3 倍的查詢性能提升。

6雲器 Lakehouse 使用體驗

星盤起航技術總監歐振聰表示:「作為一家數據原生 SaaS 企業,可能會有人奇怪為什麼我們會選擇和雲器合作。實際上,作為一家初創企業,我們需要 根據業務的快節奏靈活、及時調整數據架構,而雲器 Lakehouse 一體化數據平台,讓我們不必根據不同業務需求比對、整合多家技術產品,很大程度上節省了我們的精力和成本。此外,雲器團隊高度響應我們業務需求,讓我們有限的人員完全投入到業務中。」

作為一家 SaaS 企業的前端技術 & 新技術總監,劉冠邦表示:「雲器 Lakehouse 的 AI4D 的能力,可以自動把這歷史任務中的大量相同的計運算元集優化成共用的 mv,並在之後的任務中直接通過 mv 來獲取結果,不再運算每一個 query,最終 實現了 2.1 倍 CPU 消耗成本的降低和 5.9 倍的平均任務延遲的縮短,大幅度加速了計算過程並降低了成本消耗,提高了我們公司整體業務流轉的效率。」

7Single Engine · All Data

「在購買和自建中一旦選擇自建,客戶的要求必定是用最簡單的方式做交付,這是商品化世界的規律。所以我們要 Single Engine · All Data,把複雜留給雲器,把簡單留給客戶。」雲器科技創始人 &CEO 喻思成強調。

發布會最後,喻思成宣布 雲器 Lakehouse 產品試用申請通道正式開啟,歡迎企業前往雲器科技官網( https://www.yunqi.tech)提交使用申請。

文章來源: https://twgreatdaily.com/1b560585a797504639812c67313367ce.html