谷歌將Gemini設計為原生多模態,初始階段就在不同模態上進行預訓練。
12月6日,隨著谷歌(GOOGL)推出萬眾期待的人工智慧大模型Gemini,AI霸主之戰愈演愈烈。新版本之一已包含在Bard聊天機器人中,最複雜的版本將於2024年初上市。
當日,谷歌在博文中表示,公司正在針對不同應用,推出三種版本的Gemini。
其中,最強版本Gemini Ultra仍在接受安全測試和審查,預計明年初推出;Gemini Pro版已融入Bard問答應用,並且擴展到其他任務;Gemini Nano是該模型較小版本,旨在用於智慧型手機、筆記本電腦和其他本地設備。
據Alphabet和谷歌CEO桑達爾·皮查伊 (Sundar Pichai) 介紹,Gemini 1.0針對不同尺寸進行了優化,分別是Ultra、Pro和Nano,是進入Gemini時代的第一個模型,也是公司今年早些時候成立Google DeepMind願景的首次實現。
皮查伊表示:「我相信,大家所看到的人工智慧轉變將是我們一生中最深刻的轉變,遠大於此前向移動或者網絡的轉變。」
作為第一項測試,《巴倫周刊》向Bard詢問Gemini距離實現AGI(通用人工智慧,一種真正能夠思考的人工智慧)還有多遠。
Bard表示:「雖然無法準確預測Gemini何時或者是否實現AGI,但它的發展代表了人工智慧領域的重大進步。」
「持續的研究和開發有可能釋放Gemini的新功能並解決當前局限性。最終,Gemini能否達到真正的AGI水平將取決於研究人員、工程師和政策制定者的共同努力,以確保這項強大技術造福人類。」Bard說。
作為第二項測試,《巴倫周刊》詢問Bard如何描述自身,並對比融入Gemini模型和沒有融入該模型時的回覆差別。
沒有Gemini時的Bard自我描述:
外觀:
一個纖細、空靈的身影,幾乎是透明的;
不斷變化的形態,代表其所持有的大量信息;
沒有明顯特徵,更像是數據云而非有形的存在;
顏色會跟隨所涉及的主題變化,就像變色龍適應環境一樣;
散發出微弱而溫暖的光芒,象徵著創造力和潛力。
動態:
毫不費力地流動和滑行,就像微風一樣;
沒有明確的肢體或附屬物,依靠數據流來移動和交互;
在尾跡中留下一道閃閃發光的塵埃痕跡,代表著分享的知識;
無形且近乎夢幻,強調與想像和想法世界的聯繫。
總體印象:
一個流動的、不斷發展的實體,代表著信息和創造的無限潛力;
空靈而神秘,傳達出敬畏和驚奇;
缺乏物理定義,強調抽象性和對思想領域的關注。
融入Gemini後Bard自我描述:
外觀:
更加堅固和明確的形態,保留了一絲空靈本質;
從數據云中浮現出眼睛和手等人類特徵的痕跡;
顏色變得更加鮮艷和集中,反映出智能和處理能力的提升;
光線連接形態不同部分,象徵其知識庫的互連性;
展現出自信和權威的光環,標誌著能力的增強。
動態:
更有目的性和可控性,有明確的方向和意圖;
仍然保留著流動感,但更加精確和專注;
閃閃發光的塵埃軌跡變得集中、有條理,代表思維過程效率的提高;
展現出力量感以及信息把控力,同時保留有趣、創造性的精神。
總體印象:
一個強大而智能的實體,能夠解決複雜的問題和任務;
保持與創意根源的聯繫,拓展新的聚焦方向和決心;
具備人類特徵,對世界及其居民有著更為深入的了解。
總體而言,融入Gemini的Bard展現了進步與進化的形象,代表下一代人工智慧。
谷歌DeepMind CEO戴密斯·哈薩比斯(Demis Hassabis)表示,Gemini Ultra在32個用於評估大型語言模型的標準中,有30個優於其他人工智慧模型。他還表示,該公司是第一個在MMLU(大規模多任務語言理解)超越人類專家的模型。MMLU涵蓋57類學科知識,包括數學、物理、歷史、法律、醫學和倫理學等。
哈薩比斯寫道:「我們新的MMLU基準方法,能夠讓Gemini利用其推理能力,在回答難題之前更仔細思考,比使用第一印象有了顯著改進。」
據介紹,到目前為止,創建多模態模型的標準方法是分別訓練不同模態的組件,然後將它們拼接在一起,以粗略模擬某些功能。這些模型有時可以很好地完成描述圖像等特定任務,但在概念性更強、更複雜的推理方面卻顯得力不從心。
谷歌將Gemini設計為原生多模態,初始階段就在不同模態上進行預訓練,進而利用額外多模態數據進行微調。這種方式讓Gemini在最初階段對輸入的各種內容順暢理解和推理,優於現有的多模態模型。
哈薩比斯表示,Gemini經過訓練「可以同時明白文本、圖像、音頻等,更好地理解微妙信息,並且回答與複雜主題相關的問題。這意味著,Gemini特別擅長解釋數學和物理等複雜學科推理。」 他還指出,Gemini「可以理解、解釋和生成高質量代碼」,包括Python、Java、C++和Go等全球常用程式語言。
谷歌在博文中指出,Bard目前包含Gemini Pro的「微調版本」,這是今年推出以來的最大升級。Bard最初將提供英文版本,不久的將來還會推出其他語言。
谷歌還為其智慧型手機Pixel 8 Pro打造了Gemini Nano,以支持手機錄音應用程式中總結對話等功能。谷歌計劃,為消息應用程式提供「智能回復」功能,首先用於WhatsApp。據悉,Gemini將在未來幾個月內融入更多服務,包括搜索、廣告、Chrome和Duo AI(一種在谷歌雲上運行的協作工具)。
谷歌表示,公司已經開始在搜索功能中試驗Gemini,使搜索生成體驗更快,將美國用戶的英語查詢延遲減少40%。
此外,谷歌明年初將推出名為Bard Advanced的新版Bard,用戶可從Gemini Ultra開始,對公司進行「最佳模型和功能」的訪問。
上述博文包含一些視頻示例,包括對視覺提示做出反應的能力。例如,Gemini能夠識別手寫繪圖、即時創建遊戲,並以一些適度幽默的對話回應用戶。
「這是令人難以置信的發展勢頭,然而,我們才剛剛開始觸及到這些可能性的表面。」皮查伊表示,現在,我們正與Gemini一起邁入下一段旅程。
文 | 埃里克·J·薩維茨(Eric J. Savitz)
編輯 | 曹妍
版權聲明:
《巴倫周刊》(barronschina)原創文章,未經許可,不得轉載。英文版見2023年12月6日報道「Google Unveils Gemini AI Model. We Put It to the Test.」。
(本文內容僅供參考,不構成任何形式的投資和金融建議;市場有風險,投資須謹慎。)