搭起 AI 和 DB 之間「橋樑」!阿里雲開源新技術:將 AI 算法「一鍵部署」進資料庫

2023-12-25     InfoQ

原標題:搭起 AI 和 DB 之間「橋樑」!阿里雲開源新技術:將 AI 算法「一鍵部署」進資料庫

作者 | 褚杏娟

12 月 20 日,資料庫國際頂會 VLDB2024 公布新一批論文,阿里雲旨在實現將 AI 算法在資料庫「一鍵部署」的 PilotScope 中間件相關論文成功入圍。同日,阿里雲宣布將 PilotScope 全部技術免費開源。

開源地址:https://github.com/alibaba/pilotscope

在 AI 和 DB 之間「搭橋」

AI 和資料庫的結合在業內已經探索了很長一段時間,其中 AI for DB 是利用 AI 技術替換資料庫里的某些功能,使其性能得到提升。

這個方案需要依賴深度學習或者說大模型。但難點在於,AI 開發和資料庫開發基本是兩撥人,資料庫特別複雜,AI 開發人員很難梳理清楚其中的結構,得到嵌入效果的同時還要保證資料庫的穩定性。同時,AI 方法非常多樣,資料庫底層架構也不盡相同,這導致嵌入的模式、交互需求、具體底層實現方式都各不相同,如果做定製化就會帶來很大的時間成本,不利於大規模應用。

「AI 做了很多,DB 做了很多,但中間的橋樑沒有人干,這個橋是不通的。我們現在做的事情就是要把這個橋搭建起來。」PilotScope 項目負責人朱鎔說道。

根據朱鎔的介紹,PilotScope 屏蔽不同資料庫異構的細節,提供了抽象的、可對 AI 調用的一整套接口。PilotScope 把資料庫交互需求及嵌入過程,抽象成了一個個的接口,將最難的底層細節開發部分屏蔽掉,用戶可以直接使用,AI 工程師不用關注資料庫的細節。

理論上,用戶只要支持這個接口,同一個 AI 方法可以支持各種資料庫,包括阿里雲、微軟、AWS 以及 PostgreSQL 等資料庫,開發者可以用一個方法、寫一次代碼就支持所有類型資料庫在上面的運行。接口還可以不斷擴展,支持不同 AI 方法的需求,同時通過開源的方式來增加支持 AI 算法的多樣性。

另外,PilotScope 對 AI 算法的嵌入做了最小的擾動和侵入,不對系統的穩定性造成影響。用戶不開啟 PilotScope 時可以直接忽略它的存在,而使用 PilotScope 並把某些 AI 算法進行了相應運行後,PilotScope 的檢測機制會處理和限定模型的異常輸出,對於不正常的結果會直接打斷,讓數據用原來的模塊運行。

據了解,當前 PilotScope 針對參數調優、索引推薦、基數估計、查詢優化等資料庫主流任務,預置了 10 多種 AI 算法,並完成 PostgreSQL 和 Spark 等兩大主流開源資料庫的適配打樣。根據團隊的實驗數據,使用 PilotScope 將 AI 算法嵌入資料庫,較傳統「硬植入」方法,查詢優化等任務提速 1-2 倍不等,並且 PilotScope 本身對部署產生的額外代價基本可忽略。

十多人,用了兩年做研發

PilotScope 項目是一個深度交叉的領域:要有懂算法的研發人員明確算法具體需求,也要有懂系統的研發將需求真正抽象成系統化設計;除了要有懂 AI 的人,還要有懂資料庫的人,了解資料庫架構、嵌入模式、與資料庫的交互等;在系統設計的人員抽象出系統模式後,還需要開發人員用實際的代碼把構思實現出來;AI for DB 是學界想做的算法探索研究,業界想做一些實際落地,兩者的綜合平衡對滿足開源社區是比較重要的。

從上可以看出,這樣的研發難度是不小的。朱鎔表示,從有做 PilotScope 的想法開始到今天正式搞出來,十幾個人的團隊差不多用了兩年時間才基本完成。

做 PilotScope 的想法來源於阿里雲團隊在做 AI for DB 中遇到了測試、部署、落地等各種痛點問題。2021 年夏季之前,團隊是點對點地解決,然後發現通用性差、成本高,很難持續下去。之後,團隊開始構思這樣的一個中間件,在與業務部門溝通、研究了學界最新進展後,才將最終需求確認下來,包括要支持哪些主流方法、支持到什麼程度等。

整個 2022 年,團隊一直在解決「兩端解耦、讓橋順暢」的難題,到了 9 月份左右才開始做真正的系統研發。考慮到兩個資料庫的適配,團隊要做很多細小的修改、打磨、疊代,陸陸續續到今年八九月份才算基本成熟。

據悉,PilotScope 目前已在阿里雲內部展開試點應用。朱鎔表示,未來將做一些產業化部署,希望通過這個工具,把 AI for DB 的算法真正大規模的地應用到資料庫系統里,提升資料庫系統的效率和效果。

點擊底部閱讀原文訪問 InfoQ 官網,獲取更多精彩內容!

今日好文推薦

資料庫的下一場革命:S3 延遲已降至原先的 10%,雲資料庫架構該進化了

網遊新規致騰訊網易市值半天蒸發5200億;吳泳銘「爆改」淘天:管理層全換成有功績的年輕人;位元組年收入超騰訊、逼近Meta|Q資訊

創始人 3 天狂砍 5 萬行代碼後,應用程式更快、更易使用了

選擇哪種程式語言已經不重要了,只提倡程式設計師下班後「多看看書」提升競爭力是誤人子弟|獨家專訪亞馬遜 CTO

文章來源: https://twgreatdaily.com/zh-mo/01d8a97ed6af2d8e9ad56361f45271f5.html