資料庫行業的新篇章:國產化發展潛力幾何?

2023-07-17     InfoQ

原標題:資料庫行業的新篇章:國產化發展潛力幾何?

作者 | 魯冬雪

近年來,全球範圍內創新型資料庫企業和產品不斷湧現,我國資料庫產業和生態日益繁榮,正在進入高質量發展期。《資料庫發展研究報告(2023 年)》顯示,2022 年我國公有雲資料庫市場規模首次過半,預計 2023 年公有雲市場占比將進一步擴大達到 59.8%。騰訊雲資料庫總經理王義成表示,這個預測結果非常合理:「雲資料庫分為公有雲和私有雲兩種形式。私有雲是建立在雲廠商基礎上的,例如中國建設銀行、中國銀聯、數字廣東和浙江政務等企業都是使用騰訊雲、阿里巴巴和華為等雲廠商提供的私有雲進行業務孵化。公有雲市場仍然在持續增長,但純資料庫軟體市場將會逐漸穩定甚至逐步下降。」

當下,國內企業對雲資料庫的關注度有所增加,譬如快手和美團等大型企業逐漸放棄自建的 IDC 部署轉向公有雲。在金融和政務領域,一些創新型的企業會選擇公有雲或行業雲來滿足其業務需求,而對於核心業務要求穩定性和安全性的企業則相對較難改變現有的機房部署方式。總體而言,雲資料庫的發展將繼續增長,特別是公有雲市場,隨著雲的便捷性和彈性優勢的日益突出,越來越多的行業和企業將選擇將其數據遷移到雲上。

在這種趨勢下,2023 年 7 月 4-5 日,由中國信息通信研究院、中國通信標準化協會指導,中國通信標準化協會大數據技術標準推進委員會(CCSA TC601)與 InfoQ 聯合主辦了「2023 可信資料庫發展大會」,騰訊雲資料庫總經理王義成在本屆大會上發表了《騰訊雲資料庫 TDSQL 助力金融業核心系統國產化轉型》的主題演講分享,並在會後接受了 InfoQ 的專訪。

1資料庫國產化進程顯著提升

「十四五」規劃提出「加快數字化發展」的總體布局, 資料庫作為金融信息系統的關鍵基礎設施,其行業景氣度持續提高,資料庫國產化趨勢愈發明顯,上百家金融業試點單位在資料庫國產化的進程中,進一步增強信心,向 50% 國產化率大步邁進。

如今大批量的應用其實都是基於 Oracle 構建的,在國產化替代過程中,廠商就要提供很多在驅動、內核、資源、架構等層面與 Oracle 兼容的能力,構建全面的 Oracle 兼容解決方案,從而實現遷移、平滑的雙軌運行以及互相切換等。

關於如何更好地從Oracle手裡「接棒」,王義成在接受 InfoQ 的採訪中表示,「國產資料庫與 Oracle 在資料庫核心能力上差距其實不大,目前國產資料庫可能更多專注於自身,但是客戶看待資料庫是一體化的視角。以排查處理故障為例,資料庫廠商應該跳出自己,去沉澱全套故障排查和高可靠的白屏化能力,這樣雙方的人力和效率都能有大幅提升。資料庫絕非是資料庫本身,需要考慮如何從功能、架構、優化、運維等全方位角度幫助用戶使用好資料庫,這樣廠商才能走得遠。」

2騰訊雲資料庫 TDSQL 在金融行業展現國產資料庫實力

當今,在以數據要素驅動、數據價值實現為核心的數字化轉型大潮中,企業如逆水行舟,不進則退,如果不跟上數字化轉型的步伐,終將會被用戶拋棄、被競爭對手超越、被市場邊緣化,以致最終出局。

落實傳統資料庫轉型、布局智能化建設可以說是近年來金融行業的兩大工作重點,騰訊雲資料庫一直在賦能金融行業的核心資料庫替換方面「開疆闢土」,其資料庫產品 TDSQL 在推動資料庫技術實現安全可控的道路上取得了開拓式創新,已累計為 3000+ 的政企和金融機構提供資料庫的公有雲及私有雲服務,客戶覆蓋銀行、保險、證券、網際網路金融、計費、第三方支付、物聯網、網際網路 +、政務等諸多領域,為國產化資料庫的發展和應用積累了寶貴經驗。

王義成在演講中表示,從技術角度,金融行業核心下移資料庫選型大致有兩條路線。其一是,歷經 30 多年全球海量場景淬鍊的開源方案,其資料庫核心引擎基於 B+ 樹的數據結構,對磁碟親和,並深度優化 MySQL、PostgreSQL 內核,具備研發分布式化、金融級高可用、一致性、智能運維等能力;其二多是採用新技術進行研發的 NewSQL 路線,其資料庫核心引擎基於 LSM-Tree 數據結構,對內存親和,計算層和存儲層完全分離。

要知道,金融行業里的每個機構發展狀況都各不相同,在資料庫的選型方面也存在差異,需要針對具體應用場景對資料庫能力的需求和側重,選擇適合自身的資料庫產品:比如網際網路銀行、網際網路保險在線類業務由於在擴容方面的要求比較高,會更偏向于敏態擴容方案或彈性方案;又如,一些銀行傳統業務會選擇基於相對穩定的內核構建的分布式解決方案來做業務支撐;再如,網上交易核心、渠道核心業務會更傾向於 NewSQL 方式。

針對金融行業這種傳統行業在資料庫選型中的變化與差異,騰訊雲資料庫提供了相應的三種解決方案:

TDSQL 作為騰訊雲多年持續投入研發的資料庫產品,它基於分布式架構,無論是資源還是功能都能提供良好的擴展性,通過軟硬結合的方式支持讀寫分離、秒殺、紅包、全球同服等超高性能場景,能夠確保多副本架構下數據強一致性,避免故障後出現集群數據錯亂和丟失;同時,通過資料庫防火牆、透明加密、自動脫敏等保障企業級安全性,減少用戶誤操作或黑客入侵帶來的安全風險;在金融級高可用方面,還具備跨區容災、同城雙活、故障自動修復等特點;此外,TDSQL 還通過智能 DBA、自助化運營管理後台等配套設施來提供便攜的運維。

  • 性能:針對不同的 SQL 語句,通過基於代價和規則的判斷來提高執行效率,同時優化複製機制,確保數據鏈路在從邏輯到物理複製過程中不受網絡拖累;
  • 穩定性:TDSQL 的 HA 模塊經過長時間的調優,能夠應對各種場景下的穩定性切換;
  • 數據安全和隱私保護:在事前階段通過配置規則、安全組、白名單、SQL 防火牆來保障數據安全性,在事中階段通過 SQL 攔截、SQL 黑名單等措施,防止大規模脫庫和攻擊行為;在事後階段,支持對事件進行溯源追溯;
  • 數據的脫敏和加密:支持鏈路層加密、存儲層加密和針對特定列項的脫敏加密,在演練環境中還可對指定庫進行脫敏操作從而保護隱私數據。

騰訊雲 TDSQL 是國產資料庫艱辛爬坡的一個縮影。大家看到的,是國產資料庫在各行各業的大量投產以及市場份額的逐步提升,大家看不到的,是背後無數的打磨與優化。

三年前,騰訊雲 TDSQL 的兼容性還不夠完善,經歷了在驅動、語法、性能層面的不斷打磨和攻堅,目前已經可以獨當一面。比如某頭部保險公司使用 TDSQL 全面替換 Oracle,目前已在線上平穩運行 24 個月以上,部署了數萬核心;又如,陽光保險 OA 系統憑藉 TDSQL 的高度 Oracle 兼容能力,實現了業務短期遷移上線,生產環境更新表結構效率提升 50%;再如基於 TDSQL-C 的查詢能力,能夠打破 CPU 單核限制,實現整體的性能提升。

除了國內市場的資料庫國產化替換,中國數位技術在出海方面也取得了不錯的成績:實現金融服務閉環,海量數據、高頻交易、網銀業務是印尼銀行新項目面臨的巨大挑戰,TDSQL 以專業的可靠性、安全性和體驗為印尼銀行的數字銀行核心系統賦能,將 TDSQL 納入其核心系統後,2022 年印尼銀行每天可以處理 200 萬筆交易和 150,000 筆貸款支付,TDSQL 的高性能也為印尼銀行在一年內獲得 2000 萬用戶和 3500 萬帳戶的業務爆髮式增長提供了有力支持。

TDSQL 多次入圍 Gartner 全球資料庫魔力象限,其 OLTP 能力獲得了國內第一的好成績,是如今金融行業核心系統替換過程中的優選資料庫。在前段時間的 TPC-C 打榜中,TDSQL 性能達到每分鐘 8.14 億筆交易(tpmC),打破了世界記錄,同時也構建了業界最大的分布式集群,平均時延等領先其它廠商;在性價比方面,通過軟體優化降低了硬體成本,通過公有雲模式降低了服務成本,僅用行業三分之一的單位成本,就扛住了更大規模的並發,實現了超大規模集群性能穩定性,在 8 個小時持續壓測過程中,tpmC 波動率一直處於 0.2% 以下,遠低於標準的 2%,刷新了全球資料庫極限,這充分證明了 TDSQL 承載金融核心場景的能力,這既給國產資料庫的研發增強了信心,也給國產資料庫的使用者增強了信心。

3國產資料庫發展需要全行業共同努力

《資料庫發展研究報告(2023 年)》顯示,中國資料庫廠商有 150 家,中國市場雖然很大,但讓每家廠商都能存活下來卻異常艱難,想要在群雄逐鹿的中國資料庫市場躋身前列,交付成本和升級成本是兩大亟需解決的事情。得益於雲廠商升級過程全部依賴於原廠能力這一天生優勢,相較於傳統獨立的數據供應商,雲廠商的升級成本很低。而在交付成本方面,構建生態是非常關鍵的因素,有多少合作夥伴願意在上游做適配在下游擁抱資料庫做數據支撐非常關鍵。

據此,騰訊雲認為綁定合作生態是非常重要的,未來騰訊雲將打造以 TDSQL 為中心,上下游產業協調生態圈,抓住國產化軟體替換的大潮,在作業系統、晶片及整機廠商、中間件廠商做兼容性適配,在集成商、認證服務商,共同打造 TDSQL 服務生態環境,促進資料庫技術的快速演進。

騰訊雲 TDSQL 通過其穩定性、功能豐富和易用性等優勢,在國產化資料庫的競爭中,為客戶提供了可靠的資料庫解決方案。比如第七次全國人口普查從線下搬到了線上,資料庫需要承載全國十多億人口數據,並要求在 15 天內完成數據的高速入庫匯聚,支持海量數據的分析,無論是數據量還是並發度,靠傳統集中式資料庫無法解決這一難題。TDSQL 基於多年打磨的 HTAP 混合負載能力,在 2020 年底完整支撐了第七次人口普查海量數據高速入庫和海量數據的多維統計分析。此外,TDSQL 還參與了首家運營商核心系統資料庫分布式國產化改造項目,TDSQL 團隊利用兼容工具進行數據遷移,並逐步提高產品語法的兼容性,最終在項目中貢獻了 98% 的兼容性,對於剩下的 2%,TDSQL 團隊與開發商合作進行了改動,收穫了客戶的認可。

目前我們已經觀察到,當前企業對於國產資料庫的選型能力正在逐步提升,不同行業的企業已經具備了一定的判斷力和自主選擇性。拿金融行業來說,無論是大型機構還是中小型企業,都具備了較為成熟的選型能力,其中一些大型機構更傾向於自主制定選型策略。而中小型機構則會參考其他同類機構的選型經驗,以降低選型風險。王義成在採訪中的回答也印證了這一觀點:「在其他行業中,大企業通常會參照其他大企業的做法,選擇被廣泛認可的資料庫,以優化數據處理和提升業務效率。例如,當某行業的一家領先企業選用了某款資料庫產品後,其他企業也會傾向於選擇相同的資料庫,以保障數據處理的穩定性和安全性。」

但不管怎麼說,雲資料庫國產化已經走上了高速發展的階段。從企業應用層面來看,整個國產化替換都已經到了一個關鍵時期,廠商單打獨鬥的力量總是有限的,只有各資料庫廠商團結上下游的力量,共同應對技術瓶頸,才能實現國產資料庫的技術突破。

4國產資料庫的下一個競技場在哪?

隨著 5G、雲計算、大數據等的跨越式發展,資料庫技術不斷演進。王義成在接受採訪時表示,在當前的資料庫發展中,有兩個比較明確的方向——分布式資料庫和雲原生資料庫,這兩個方向已經得到廣泛應用,並取得了成功的發展;另外,在非關係型資料庫領域,出現了多種類型的資料庫,如圖資料庫、向量資料庫、鍵值型內存資料庫和文檔型資料庫等,都正在「齊頭並進」式發展。

其中,向量資料庫是王義成比較看好的,也是當今較為熱門的資料庫技術之一,它在大模型應用和人工智慧應用中具備一定的優勢。儘管向量資料庫存在發展機會,但目前它仍然處於初級階段,而且還需要注意的是,向量資料庫並不是一個可以獨立主導所有數據的資料庫,它更多是一個與關係型資料庫和 AP 資料庫相結合,提供貼近 AI 場景的實時存儲功能解決方案。

目前向量資料庫技術仍需各廠商進一步探索,以在具體的垂直領域或應用場景中獲得更大的爆發大,但隨著大模型技術的日益火熱,相信向量資料庫的發展也將進入快車道,成為各廠商競技的新賽場。

對於騰訊雲來說,其正在進行向量資料庫的自研工作,並於近日發布了國內首個 AI Native 向量資料庫 VectorDB,可支持 10 億級向量檢索規模,延遲控制在毫秒級。相比傳統單機插件式資料庫檢索規模提升 10 倍,同時具備百萬級 QPS 峰值能力。針對大模型場景,在接入層、計算層、存儲層實現了全面 AI 化,使得企業接入大模型的效率提升 10 倍。騰訊雲已經在內部使用向量資料庫來支持音樂搜索和其他業務應用,並計劃在今年 8 月開始面向公有雲客戶推出公測,大家可以期待一下。

文章來源: https://twgreatdaily.com/zh-cn/e0a4bc06b37586f8abd1ef6650373ac9.html