AI加速數據驅動。
作者|趙健
位元組跳動的大模型又有了新的進展。
目前為止,位元組跳動已經公開發布了三款大模型相關產品:
第一款是火山方舟,這是火山引擎在今年6月發布的MaaS雲產品,其中集成了市場上主流的第三方大模型。
第二款是抖音發布的類ChatGPT對話機器人產品「豆包」,其底層基於位元組跳動自研的雲雀大模型,在8月31日首批通過備案並公開上線。
第三款產品,就是火山引擎昨天剛剛發布的數據產品「AI助手」,是火山引擎發布的第一款接入了大模型的數據產品,幫助企業解決數據處理與查詢分析等功能。
火山引擎總裁譚待認為,數據飛輪將是大模型在企業市場應用落地的一個重要方向。他表示,大模型降低了企業挖掘數據價值的門檻,更高效地構建以數據消費為核心的數據飛輪,「AI加持的數據飛輪將成為企業做好數據驅動的一個新範式。」
相比其他大廠,位元組跳動對於大模型的態度相對低調。但是大模型浪潮,位元組跳動絕不會缺席。
1.「AI助手」是什麼?
本次火山引擎發布的「AI助手」,是火山引擎數智平台產品接入大模型的一次實踐。
火山引擎數智平台(Volcano Engine Data Intelligence,簡稱VeDI)由火山引擎在2021年12月2日正式對外發布,如今已經是一套覆蓋IaaS、PaaS、SaaS、解決方案與諮詢的端到端全鏈路雲上數據產品。
火山引擎數智平台產品圖
火山引擎數智平台的前身就是位元組跳動數據平台產品,它沉澱了位元組跳動在數據上的最佳實踐,也將數據驅動的理念根植於位元組跳動的基因之中。
AI助手接入大模型有兩種方式,一是直接接入位元組跳動自研的雲雀大模型,二是通過火山引擎在今年6月發布的火山方舟MaaS平台,接入第三方模型,比如智譜AI、百川智能、MiniMax等。
位元組跳動數據平台負責人羅旋表示,大模型在數據產品中的應用,也改變了位元組跳動內部探索數據價值的方式。
位元組跳動數據平台負責人羅旋
目前,數智平台VeDI的兩款產品接入了大模型——大數據研發治理套件DataLeap、智能數據洞察DataWind,前者是一款PaaS產品,後者是一款SaaS產品。
羅旋認為這兩款產品已經覆蓋了數據生產與消費全鏈路場景的絕大多數環節,可以概括為三個:
數據資產的查詢和開發,是數據消費的前置步驟。非研發人員利用「DataLeap找數助手」模塊,通過問答式檢索,能高效準確找數,實現員工自助數據消費第一步;
數據生產環節,基於DataLeap開發助手模塊,使用文字描述或數據模型,就可以自動生成代碼、一鍵優化,以及對話式諮詢SQL使用問題等,讓數據開發簡單高效;
數據洞察方面,利用DataWind分析助手,非專業分析人員通過自然語言對話,可完成SQL查詢修復、自動生成可視化圖表和飛書對話式分析等一系列業務探索,縮短數據分析周期。
火山引擎總裁譚待表示:「VeDI的兩款產品,不但降低了非專業人員數據消費的門檻,還解放了專業人員,讓其可以聚焦複雜場景的需求,提高研發生產效率與代碼質量。」
羅旋承認,大模型的「幻覺」問題今天為止還沒有徹底解決。所謂幻覺,就是指大模型生成的內容,不是基於任何現實世界的數據,而是大模型自己想像的產物,即「一本正經地胡說八道」。
但羅旋表示,我們可以通過一些方法,一定程度上緩解精確度的問題。比如,把AI的推理過程「白盒化」,以產品化的形式向用戶展示,如果出現錯誤用戶可以及時地發現。這是當前最重要的思路之一。
另一方面,模型本身能力的提升也會緩解這一問題,比如GPT-4在解決「幻覺」能力上要比GPT-3.5有巨大提升。同時,在基礎模型之上加一個行業專屬語料做精調,也可以降低幻覺,提升準確率。
大模型在數據產品中的應用,在位元組內部業務比如抖音電商實踐中已初步獲得成效。
目前,位元組跳動內部80%的員工可以直接使用數據產品,可管理、運營的數據資產覆蓋80%的日常分析場景。
數智平台AI助手已經開啟內測,但還不會大規模開放。火山引擎會邀請一些客戶深度共創,計劃等產品打磨成熟時候再對外公開。
2.數據飛輪升級
在企業軟體領域,數據處理與分析類產品是一個比較成熟的主場,市場上有大量的大數據公司、數據中台公司。
比如,海外比較知名的大數據公司有Snowflake、Databricks,兩者今年在大模型領域也做了大量布局。
在被問及與Snowflake的區別時,位元組跳動數據平台負責人羅旋表示,Snowflake本質上是一個數據倉庫引擎(PaaS層),在功能做大之後開始向上往數據分析的產品矩陣方向發展。而火山引擎一開始更強調上層業務,比如A/B測試這款SaaS產品完全沒有對標,然後再完善數據資產到數據底層能力的建設。
「如果用數據飛輪來比較,我們更強調兩個輪子——數據應用與數據資產建設能力的兼備。」羅旋表示。
這兩種數據能力建設思路的不同,一定程度上反映了中外企業對數據的應用能力的不同。
在中國市場,不少企業數字化建設較多,卻無法較好釋放數據價值,存在數據建設與管理成本高、數據產品使用門檻高、數據資產價值低的問題。這是一個普遍的痛點。
火山引擎總裁譚待認為,原因在於業務和數據之間沒有形成雙向良性驅動。「數據消費是目的,數據中台建設是手段,過去很多企業錯把手段當成了目的,因此即使建設了數據中台,也不知道怎麼用起來。」
為解決這一痛點,今年4月,火山引擎對外發布企業數智化升級新模式「數據飛輪」,核心要素就是做好「數據消費」。
火山引擎數據飛輪
如何理解數據飛輪與數據消費?
過去的數據中台建設通常都是一個技術問題,但技術與業務之間常常存在割裂。得到App聯合創始人&CEO脫不花,也在現場也分享了得到業務團隊與技術團隊在數據治理之前針對數據的非共識。
而在數據飛輪理念下,數據能力的建設都是業務驅動,跟客戶不是先聊技術,而是先聊業務。如果現有的數據產品,比如AB測試/已經滿足應用,那就直接開箱即用;如果不能滿足需求,再考慮進行數據資產的建設。
這聽起來似乎是一個很簡單的理念,但對於數據服務商卻提出了更高的挑戰,因為它要求數據服務商要儘可能地了解行業、甚至更細節的業務場景的業務邏輯。這並非技術問題,而是需要長時間的行業經驗的積累。
火山引擎之所以提出數據飛輪的理念,最核心的原因,就是這是基於位元組跳動自身數據實踐,是一套已經被驗證過的方法論,並沉澱在相應的數據產品中。
產品無法滿足的,好可以通過諮詢服務來滿足。火山引擎專門設置人員來提供UG諮詢服務、數據BP諮詢服務,解決客戶早期的業務問題。
所以,這是一套短期內難以複製的數據理念。某種程度上,這才是火山引擎數據產品最大的競爭壁壘。
大模型的出現與數據飛輪的理念相吻合,因為兩者都是在降低數據使用的門檻,讓數據更高效地發揮業務價值。
譚待表示,構建以數據消費為中心的數據飛輪,將是企業數字化建設的必然趨勢,「火山引擎VeDI還將進一步升級,通過AI+數據飛輪持續降低數據消費門檻,充分釋放企業的數據價值,幫助企業更好地從數據中獲取增長的動力。」
(封面圖為火山引擎總裁譚待,圖片來自火山引擎)