阿里、百度大模型價格混戰,小公司們還是買不起算力 | 硬氪分析

2024-06-14     36氪

作者|黃楠

編輯|袁斯來

從OpenAI燒起來的價格戰大火,迅速蔓延到大洋彼岸。

5月13日,OpenAI在發布GPT-4o的同時,將其API價格調低50%,每百萬tokens的輸入價格降至5美元(摺合人民幣約35元),搶跑大模型價格戰的第一棒。

隨後半月,國內各家大模型廠商掀起了降價潮。阿里旗下9款大模型降價後,百度隨即宣布文心Speed和文心Lite兩款模型免費。緊接著,智譜GLM-3-Turbo模型、位元組的豆包大模型、阿里通義系列模型等也紛紛將百萬tokens的輸入價格從100元左右降至1元左右。

降價背後的根本原因,是大模型廠商對商業化落地的迫切。但看似激烈的價格戰很難緩解行業困局。

「本輪價格戰的主要參與者都是雲廠商,幾家頭部大模型公司有動作、但並不激進,畢竟現在能大批量採買算力和模型服務的企業仍是少數。」關注晶片產業的投資人胡楊告訴硬氪。

說到底,企業跑在大模型上的應用要落地,靠的是海量訓練和無休止疊代,僅推理token降價並不能解決訓練和部署端高昂的算力開銷。算力焦慮然揮之不去。

在這一背景下,集成軟硬體服務的算力一體機開始吸引關注。

算力一體機結合了高性能計算的硬體和優化的軟體算法。大廠價格戰只是給行業提供價格便宜甚至免費的API,算力一體機將所有計算資源集中到一台設備上,思考的是如何降低模型算力、部署成本和技術門檻,優化性能等問題,針對沒能力自己建數據中心、開發大模型的普通企業。

長期的算力焦慮一定程度上限制了國內AI產業的規模化發展。從技術到生產力的轉化,以算力一體機為代表的「開箱即用」產品,或許能成為企業嘗試大模型應用的關鍵一步。

大模型應用的最大瓶頸

算力部署是一場需要金錢灌注的持久戰。

當前全球GPU晶片缺口巨大,英偉達一家無法滿足所有AI大模型訓練、推理的需求。英偉達以外,其他多元異構GPU也在快速發展中,算力生態呈分散態勢。2018年1月到2021年1月期間,參數量每18個月增長達高340倍。對比之下,2016至2021年的GPU內存增長量,每18個月僅為1.7倍。

隨著時間推移,模型參數量增長

英偉達、AMD、英特爾等單晶片算力增長,趕不上大模型參數量、訓練數據量所需的算力增長。

對於能拿到算力的公司,擺在眼前的就是成本問題。

Meta曾明確提到,LLaMA需使用到2000個A100 GPU,3周1次訓練,其單次訓練成本為500萬美金。百川智能CEO王小川也曾表示,每1億參數對應的訓練成本約為1.5萬到3萬元,由此計算,一個千億級參數的模型的單次訓練成本約3000萬元。模型越大、GPU開銷越大。

從傳統產業和中小公司的視角來看,他們的需求很明確:高性能低功耗的算力、穩定且響應迅速的模型、保證數據安全。

但這些企業風格相對保守和現實,早期階段就很重視模型應用在具體業務中ROI表現,前景不明朗時,他們不願貿然投入。

如果要及時見效,場景應用時,常見的做法是基於通用底座微調後,做私有化部署。然而, 「這種方法很多時候對企業來說是個不小的負擔。」在2024年SusHi Tech Tokyo的會場上,「Avalanche Computing」CEO陳傑告訴硬氪。

展館中,關於產業智能升級、AI融合的討論無處不在。429家參展企業,隨處可見與AI相關的物料,從底層架構、模型訓練、AI Agent工具、伺服器設備硬體到晶片等等,超過70%的公司展示著自家與生成式AI的關聯。

成本和算力難以兩全時,算力一體機或許是個突破口。

以「Avalanche Computing」為例,其主營hAlsten Al低代碼工具和Althena終端系統平台,提供軟硬體一體化服務。

其中,終端系統平台Althena是一個算力一體機,可提供離線模型服務,其支持英偉達多款設備,搭載了目前市面上主流的開源大模型,包括LLaMa3、Mistral AI、Gemma等,可以降低企業開發大模型的技術門檻。

進入使用環節,企業可以選擇運行由HAIsten AI訓練所得的模型,並對模型提問。測試顯示,在離線狀態下,該模型可在2-3秒內生成答案;同時,企業也可以在連接網絡後,自由更換想要調用的大模型。

一個Althena算力一體機可以支持2-3人同時使用,售價最高1.5萬美元/年(摺合人民幣10.9萬元/年)。而一台英偉達DGX A100伺服器,其發售價為19.9萬美元(摺合人民幣約145萬),以目前常見的四年折舊期計算,每年42.5萬元。

可以看到,價格僅為DGX A100四分之一的Althena算力一體機,極大降低了大模型訓練和部署的成本開銷。

英偉達DGX A100伺服器

保障企業安全,降低開發門檻

當前,業內正探尋多種路徑以優化算力資源的調度,包括MOE(混合專家模型)架構、高性能AI計算系統、算力一體機等。

其中,算力一體機通過定製的硬體架構和優化的軟體系統,具有高兼容性、高穩定性、高擴展性和高算力利用率。對於前期算力需求不大的傳統產業客戶和中小公司來說,在一定程度上能滿足其處理數據和複雜計算任務的需求。

據硬氪了解,除了考慮算力成本,大模型行業落地還存在兩大難題,分別是企業安全和開發應用門檻。以日本市場為例,「Avalanche Computing」目前所接觸到的客戶以傳統製造業為主,陳傑告訴硬氪,「這類企業非常強調數據私密性,擔心機密外泄,他們的知識圖譜和資料庫往往會選擇keep in house(即保存在公司內部)。」

算力一體機採用了邊端私有化部署的方式,是保護企業數據隱私安全的有效手段之一。它在硬體上整合了通用算力、智能算力、存儲、網絡、安全,企業不需要自建機房,可以進行本地化的快速部署。

其次,企業安全問題也涉及到系統的穩定性。此前國內雲廠商宕機事故頻發,不僅自身重要業務停止運行,更影響到許多客戶企業產品崩潰,導致一系列技術問題發生。即使是自建單機房,一旦機房或網絡發生故障,業務可靠性也無法保證。

算力一體機的離線服務,在發生突髮狀況時,能維持系統的穩定運行;同時降低了企業的使用門檻,用戶只需要將相關數據打包並上傳至一體機內,並選擇想要使用模型,即可低成本收穫一個部署在企業內部的私有大模型。

最直觀的體現是,過去企業調試一個模型,僅接⼊、驗證等至少需要⼀周時間。現在用算力一體機,半天就可以跑通⼀個模型並看到使用效果。

但需要注意的是,當前基於通用大模型,並不是企業將資料庫輸入模型訓練後、就能得到專業的結果,仍需要不斷地使用並疊代。由於推理所需的算力開銷往往無法預估,Althena算力一體機的租賃式方案靈活,提供彈性的推理資源,對早期需求不多的企業可選擇小量採買、後期起量後再增加設備。

大模型行業正進入價格內卷期,但在這波熱潮之下,同時滿足算力充足、價格適宜,併兼顧安全的產品仍未誕生。就目前來看,對於還處在早期觀望的企業而言,扮演著基礎設施角色的算力一體機,也許是種解答。

文章來源: https://twgreatdaily.com/zh-sg/1076aaddc134a074dc1580d25aec81a3.html