谷歌Gemini讓大模型走向多模態 算力需求將進一步暴漲

2023-12-16     中國經營報

原標題:谷歌Gemini讓大模型走向多模態 算力需求將進一步暴漲

本報記者 李玉洋 上海報道

12月7日,谷歌發布新模型Gemini 1.0系列,該系列有三個尺寸版本(超大杯Gemini Ultra、大杯Gemini Pro和中杯Gemini Nano),被稱作可以真正叫板GPT-4的模型。「這是我們迄今為止功能最強大、最通用的模型,在許多基準測試中都領先。」谷歌CEO桑達爾·皮查伊(Sundar Pichai)表示。

為顯示Gemini強大的多模態能力,谷歌一段僅靠視覺和聲音來驅動Gemini的視頻演示,刷屏了全網並驚呆了很多人,一些評測指標上追平甚至超過OpenAI的多模態模型GPT-4V。然而,這段演示被指存在造假嫌疑,而谷歌方面的回應是「所有用戶提示和輸出都是真實的,只是為了簡潔起見進行了縮短」。

儘管如此,研究機構Omdia人工智慧首席分析師蘇廉節對《中國經營報》記者表示:「谷歌是第一個把大模型和應用完美結合展示出來的公司,具有劃時代的意義。像百度、谷歌、騰訊、Meta這種有大量消費者業務的企業,首要的目標應該是考慮怎麼利用多模態將人機互動豐富化。」

「隨著谷歌Gemini模型的發布,AI進入多模態時代。」這是外界對於谷歌新近發布大模型Gemini(中文名「雙子座」)一個觀察。蘇廉節對這一看法表示認同。

多模態大模型已經是行業內公認的發展趨勢之一。「這是很自然的趨勢,文本處理完,就需要處理其他模態的能力,比如圖像、聲音。」AI算法專家、連續創業者黃頌表示,谷歌Gemini的推出對於多模態大模型的發展具有促進意義。中信證券研報指出,短期來看,Gemini將進一步激發市場對多模態模型的期待,對產業而言,多模態也將帶動算力需求的提升。

原生多模態有多強?

目前業界比較公認的是,谷歌Gemini是真正能與GPT-4正面硬剛的模型,就算存在自吹自擂的成分。

根據谷歌的說法,Gemini Ultra在30項大模型能力測試中超過此前最強的大模型GPT-4,在檢驗大模型數學、歷史、物理、法律等57個學科知識水平的MMLU(大規模多任務語言理解)測試中得分率達到90%,是第一個超過人類專家的模型。此外,在推理、數學和編碼等幾個評判大模型真正能力的測試中,Gemini Ultra幾乎全面領先GPT-4。

需要指出的是,Gemini Ultra要到2024年才會向公眾開放,它的真實效果還有待驗證。皮查伊解釋稱,花更多時間是為了進行嚴格的安全測試,並挖掘它真正的功能。事實上,OpenAI在訓練完GPT-4後,也花了半年時間做類似的事情。

Gemini Pro則會成為谷歌聊天機器人Bard背後的模型,替換原來的PaLM 2模型,一些開發者測試後發現,效果要比原來的好,但與GPT-4仍有不小的差距,大致相當於GPT-3.5的水平。

而Gemini Nano將搭載於谷歌手機Pixel 8 Pro,是一個定位在端側的模型。據悉,Android開發者已能在Pixel 8 Pro上使用Gemini Nano開發應用,用戶也可以用它總結錄音紀要等。

撇開谷歌的自我宣傳,科技圈大佬也對谷歌Gemini模型做出了較高評價。比如Meta的AI框架PyTorch聯合創始人Soumich Chintala表示:「(Gemini)似乎在基準測試上可以硬剛GPT-4。谷歌擁有客戶基礎,無須擔心模型採納問題。而且谷歌將使用TPU進行推理,因此不必像OpenAI和微軟那樣支付給NVIDIA 70%的利潤(直到它們的晶片準備好並投入生產)。」

在談到「谷歌Gemini和GPT-4誰更強」時,360集團創始人、董事長周鴻禕表示:「谷歌的商業模式靠搜索和廣告,做大模型等於左手打右手,所以沒有全力做,這才給了OpenAI表現的機會。現在谷歌想明白了,與其被人打死不如主動轉變。」

「從長期看,谷歌趕上GPT-4綽綽有餘,畢竟是做搜索出身,有數據優勢,有大量的知識積累和沉澱。搜索和大模型融合,能讓大模型變得更實時,知識更全面更準確,搜索本身也會變得更智能。」周鴻禕稱。

原生多模態,是谷歌Gemini的主要特色。與之形成對比的是,OpenAI的文字、圖像和語音的模型分別是GPT-3.5/4、DALL-E和Whisper,直到三個月前低調發布的GPT-4V才能做多模態任務。

「谷歌Gemini模型的核心優勢,在於其原生多模態的特性。」黃頌指出,多模態大模型已是大模型發展的明確趨勢之一,Gemini的到來會刺激國內公司加速研發。

業內人士普遍認為,多模態是生成式AI下一步的重點方向,百花齊放的應用場景有待繼續探索。蘇廉節也表示:「目前的主流人工智慧應用都是以文本和語音為主,包括現在最火的類ChatGPT應用也是用語言來交互,像百度、谷歌、騰訊、Meta這種有大量面向消費者業務的企業,首要的目標應該是要考慮怎麼利用多模態將人機互動豐富化。」

東方證券研報認為,現階段大語言模型的競爭已經非常激烈,從技術突破的角度來看,下一階段的重點攻克方向必然是多模態技術。能真正處理和應用好多模態AI能力,才能真正打通物理世界和數字世界的障壁,用最基礎的感知世界能力直接生成操作,實現與物理世界最自然的交互。

算力需求將進一步增長

「這是屬於非常前沿的科技,就算谷歌Gemini展示出的能力也是經過精心調教的,沒有那麼順其自然。」蘇廉節指出,多模態的意義就在於,為AI應用帶來了更多可能性,是通用人工智慧(AGI)發展的關鍵。

在Gemini技術文檔和公開發言中,谷歌高管多次強調目前只是1.0版本,明年還會發布更先進的大模型。這顯示出「沒搶在ChatGPT前發布Bard」的谷歌,正在挽回自己在新一輪AI浪潮中的落後局面。

今年3月GPT-4發布之後,谷歌把兩個人工智慧部門DeepMind和Google Brain合併,並讓DeepMind的創始人Demis Hassabis來領導新部門,主要使命就是牽頭研發多模態大模型Gemini。

相比於大語言模型,多模態大模型對算力的消耗呈指數級增長趨勢。國泰君安研報認為,當前多模態大模型仍在不斷疊代,訓練階段的算力將保持增長。根據測算,GPT-4對於算力的需求在同等訓練時長下相比GPT-3增長445倍。而根據谷歌內部消息,Gemini有萬億參數,訓練所用的算力達到GPT-4的5倍。

只不過,有別於其他大模型對英偉達硬體及生態的依賴,Gemini訓練所需的算力基於谷歌自研的TPU V4和V5e等硬體。在推出新模型的同時,谷歌宣布推出迄今為止功能最強大、最高效、可擴展性最強的TPU系統Cloud TPU V5p,將用於開發更高層次的AI大模型。

「對於人工智慧基礎設施而言,系統能力比微架構更加重要。」晶片研究機構 Semianalys 的首席分析師迪倫·帕特爾(Dylan Patel)表示,谷歌擅長把上千塊AI晶片連接在一起,組成一個強大的算力平台。

此外,谷歌還擁有圍繞TPU的軟硬體集成能力、研發出大模型基礎技術的Transformer等基礎實力,通過軟硬體高度集成能力,做出一個能替代英偉達的方案,不是難事。谷歌雲高管阿明·瓦赫達(Amin Vahdat)表示:「藉助 TPU V5p,可以讓他們更划算地利用人工智慧。」據悉,Salesforce、Lightrick等客戶已經在使用谷歌雲的TPU V5p超級計算機來訓練大模型。

事實上,英偉達GPU作為2023年最緊俏的AI硬體,已經被各大科技巨頭瓜分殆盡。根據Omdia近期發布的一份半導體研究報告,微軟和Meta位居榜首,雙雙從英偉達購買了15萬塊H100 GPU。

從第三名開始,購買數量開始斷崖式下跌。谷歌、亞馬遜和甲骨文等公司各搶到了5萬塊GPU。其中,谷歌通過自研的張量處理單元彌補了一些晶片需求。國內科技巨頭也是英偉達GPU的大客戶,比如騰訊購買了5萬塊H800,百度和阿里巴巴分別購買了3萬和2.5萬塊GPU。

Omdia的報告還顯示,今年向英偉達採購 H100(或 H800)最多的12家客戶里,有4家公司來自中國(分別是騰訊、百度、阿里和位元組跳動)。

另一方面,英偉達也是動作頻頻。據Omdia統計,被稱為「算力黃牛」的公司CoreWeave獲得了4萬塊GPU,僅比谷歌少了1萬塊。而據華爾街見聞的報道,英偉達瞄準雲服務領域後看上了CoreWeave,聯手谷歌來扶持這家公司。

即使在H100緊缺的情況下,英偉達還是把大量的新卡分配給了CoreWeave,並直接參與投資。今年4月,在CoreWeave 4.21億美元B輪融資中,英偉達成為了主要參與者,讓CoreWeave估值升至20億美元。

近期,英偉達CEO黃仁勛先後走訪日本、新加坡、馬來西亞和越南,跟當地政府和大企業談合作、建AI基地。此前,黃仁勛還在今年9月和10月去了印度和中國台灣,合作對象分別是信實工業、塔塔和富士康。

國泰君安研報認為,訓練成本持續高企,算力租賃商業模式具備可行性,短期持續看好算力以及算力租賃賽道。「AI算力有望超越普通算力服務市場,2023年格局分散。AI算力租賃市場規模有望超過普通算力服務市場,規模達到數千億元。」東吳證券也指出。

市場廣闊的算力租賃市場,吸引了眾多玩家湧入。數據顯示,近十年,我國算力基礎設施相關企業呈逐年高速增長態勢。2020年、2021年、2022年分別新增47.85萬家、76.97萬家、80.14萬家,同比增長52.62%、60.85%、4.11%。天眼查數據顯示,截至目前,今年我國算力基礎設施相關企業註冊量達86.66萬家,已超去年全年註冊量,其中今年前十個月新增80.27萬家,同比增長20.48%。

文章來源: https://twgreatdaily.com/e83c4054a366f1198e4a3f0ccc9a2523.html