谷歌「最強」AI誕生!聽、說、看、寫樣樣精通,還能教人做飯……

2023-12-08     極果

原標題:谷歌「最強」AI誕生!聽、說、看、寫樣樣精通,還能教人做飯……

沒想到,擁有「AI」後的世界已經發展成這樣了!

自從去年ChatGPT面世後,今年5月谷歌也坐不住了,宣布要搞AI大模型,但由於種種原因,一直等到大半年後的今天,才正式發布了新一代大語言模型「Gemini」。

谷歌出手,就是不同凡響,雖然步子慢了,但成果很「硬核」。在官方演示中,Gemini可以非常自如地在圖像、音頻、視頻各模態之間轉換,其能力也讓人刮目相看,例如根據一張地圖和表情符號,就能設計出「猜國家」遊戲;或者根據文字和圖像,猜出是哪部電影......

這還不夠,它還會教人念中文並區分四個聲調,甚至能手把手教你做飯,有種上班是老師,下班秒變「小廚師」的感覺,任誰看了不直呼一句「厲害」!

難怪谷歌官方稱,Gemini是谷歌迄今為止「最大、最全能的AI模型」,它能夠進行更複雜的推理,理解更加細微的信息,甚至像人一樣理解周圍的世界。換句話說,它比之前任何技術都要牛!廢話不多說,下面我們就來看看,這個AI大模型有多厲害。

長話短說,谷歌將Gemini定義為一款「原生多模態」模型!直白點解釋就是,Gemini一出廠就是「全科發展」,多種感官在模型內統一學習,而不是單獨學習再拼接到一起。

這裡拿出OpenAI做典型,OpenAI的GPT-3.5一開始是純文字大語言模型,直到GPT-4才安排了視覺等多模態能力,這種組裝拼接吧,就好比先學了語文再學數學,極大可能帶來「偏科」問題。

但全面發展的Gemini就不同,它從第一天起就設計成原生多模態結構,相當於「所有科目一起學」,用谷歌的話講,它能無縫理解、操作不同類型的信息,包括文本、代碼、音頻、圖像和視頻等,不需要額外轉換,各種模態的性能也更為平衡。

這裡再舉個簡單的例子:同樣是要理解圖像信息,像GPT-4這樣的非原生多模態結構模型,需要先藉助OCR(光學字符識別技術)先「認出來」圖里是什麼——轉成文本,再放到語言模型中進行語義理解。而Gemini能基於圖像馬上進行理解,這種端到端的理解,不會讓信息在「轉錄」過程中丟失。

這樣一對比,想必大家就都懂了。

看來,谷歌稱Gemini超越了GPT-4,還真不是瞎吹牛!值得一提的是,谷歌這次一口氣提供了Gemini的三個尺寸模型:Gemini Ultra、Gemini Pro、Gemini Nano ,並分別對其進行了優化。

其中,Gemini Ultra版本功能最強大,能夠完成高度複雜的任務,主要面向數據中心和企業級應用;Gemini Pro則是性能最好的模型,可以執行多種任務,將通過谷歌的類ChatGPT聊天機器人Bard,為眾多谷歌AI服務提供支持,加持谷歌的Gmail、Maps Docs和YouTube等服務。

最後就是Gemini Nano,這是最高效的模型,用於設備端任務,可以在安卓設備上本地和離線運行。按照谷歌所說,該模型將首次內置於谷歌手機Pixel 8 Pro上,支持錄音自動摘要、鍵盤智能回復兩項功能,未來預計將更多功能置於安卓手機離線運行。

鍵盤自動生成回復語

整體來看,Gemini的多樣化設計,使其能夠在各種設備上運行,從手機到大型數據中心均適用,其優勢顯而易見。話雖這麼說,但紙上談兵可沒有信服力!

既然是被拿來「硬剛」GPT-4的模型,Gemini當然少不了經歷一番測試。

根據內部消息,在推出Gemini之前,谷歌就對該模型進行過一系列標準測試。結果顯示,性能上,Gemini訓練所用的算力達到GPT-4的五倍,非常出色。其中,特別是在語言理解、推理、數學和編程測試中表現更佳。尤其是Gemini Ultra,在32個常用的學術基準的30個上,已經超越GPT-4。

並且Gemini Ultra在大規模多任務語言理解任務上,得分高達90.0%,是首個超越人類專家的模型。

谷歌DeepMind CEO Demis Hassabis表示:「這是我們目前規模最大,性能最強的大模型,Gemini可以像我們一樣,理解我們周圍的世界。」確實,對於普通人而言,Gemini也大有用處,它可以同時識別和理解文本、圖像、音頻等各種形式的輸入內容,因此能更好地理解細微的信息,回答與複雜主題相關的各類問題。

具體來看,對於圖像理解方面,根據谷歌在發布會放出的演示視頻,Gemini是玩「你畫我猜」的一把好手,不僅能準確地描繪出測試者在紙上畫出的圖形,還能根據測試者畫出的輪廓,猜測出她繪製的是什麼東西。

此外,它還能根據給出的文字和圖像,正確猜出所指電影的名字;又或者根據所給的服裝圖像,告訴你使用場景,甚至為這套搭配取名。

甚至它還能把圖像,轉變成代碼......

而在音頻理解上,Gemini也是一把好手,例如用戶上傳了一段非英語的音頻,然後又錄了一段英語的音頻來提問。這聽起來似乎有點麻煩,但Gemini卻可以輕鬆解決,它能同時處理兩段不同語言的音頻,並精準輸出所需要的摘要內容,讓人眼前一亮。

還沒完!Gemini還能根據指示,教工作人員「鴨子」的普通話發音,並解釋了漢語聲調,點個贊!

更厲害的是,它還能教你做飯,例如煎個蛋?你可以用語音問Gemini,還可以把手頭有的食材拍個照片發過去,然後Gemini就會結合配圖中的食材,及所發送的音頻需求,來一步步教你怎麼做出完美的煎蛋。沒想到,有一天AI也能指導做飯,各位不會做飯星人有救了。

重點來了,Gemini理解文本的能力也不容小覷,它尤其擅長解釋數學和物理等複雜科目中的推理。對於很多家長來說,輔導孩子作業也是下班後「必不可少的工作」,但有時一些題目自己也不會,或者因為一些別的事,沒時間輔導孩子,該怎麼辦呢?答案很簡單,拍張圖交給Gemini就完事了。

它在給出正確答案的基礎上,還能針對解答過程中孩子不懂的步驟給出具體解釋,甚至它還可以指出孩子解答過程中具體出錯的點。最後,你還可以直接讓Gemini輸出一個和出錯類型相似的題目,讓孩子再鞏固一下知識點。

其它方面,Gemini在辨認環境、物體等場景,也不在話下。從谷歌演示來看,給它一張充滿陽光的房間照片,它就能推理出來這個房間是朝南朝北,甚至告訴你房間裡的植物應該要怎麼照顧。整個交流過程十分順暢,可見Gemini在多語言環境下表現出眾,完全不亞於GPT-4。

官方介紹,在Gemini的三個尺寸模型中,Gemini Pro已率先被用在谷歌聊天機器Bard的升級上。經過谷歌測試後,Gemini Pro的表現要優於GPT-3.5。

而為了進一步展現升級後的Bard有多強,谷歌還請了油管教育博主Mark Rober,全程使用Bard作為輔助工具,從零開始畫圖紙,最後真的造出了一架巨大的紙飛機。

說了這麼多,其實無論是指導做飯,還是輔助造紙飛機,都直觀說明了,Gemini確實給普通大眾的生活,帶來了一定幫助,讓AI真正融入日常。

當然,除了上面說到的這些之外,谷歌還展示了Gemini的很多能力,例如讀柱狀圖,生成表格;或者直接生成圖文並茂的博客;以及展示圖形邏輯的推理,還有更為複雜的編程等等,這些都很好說明了Gemini確實很聰明,智慧。

說了這麼多,總之從谷歌公布的一系列參數和操作展示來看,Gemini的「AI能力」有目共睹,確實越來越像一位真正的「人類助手」!

現如今,人工智慧迎來發展浪潮,對於谷歌而言,在AI即使早在AI領域深耕多年,擁有優質人才和深厚技術積累,卻被OpenAI搶了先,以至於後面不得不奮力追趕。

細數下來,今年3月OpenAI發布GPT-4,隨後谷歌搞了一款Bard的聊天機器人,但可惜這款對標ChatGPT的機器人並沒有獲得很大的市場聲量。後面的故事也不少,谷歌連續官宣戰略合作、緊急發布多個AI工具等等,這些大動作,無疑都表明了谷歌在強烈反擊。

直到「谷歌大腦」與Alphabet旗下的人工智慧實驗室DeepMind合併後,數百名AI精兵瘋狂衝刺,才有了Gemini的誕生。現在憑藉Gemini的強大實力,谷歌終於揚眉吐氣,據說Gemini官宣發布後,不少OpenAI的研究員也都發文祝賀谷歌。

而縱觀當下整個AI浪潮發展史,Gemini的發布無疑是AI界又一個里程碑,這意味著AI大模型浪潮進入到一個全新階段,比起大語言模型,這種多模態模型的運作模式,才是人類最自然的和世界交互的方式。

但話說回來,多模態領域還在技術探索初期,Gemini的發布也只是掀起了其中一角,但這也將直接導致全球的AI大模型競賽進入新一輪競爭,那麼就期待下谷歌或OpenAI,會不會再掀起巨大水花吧。

本文由極果用戶極果媒體原創

文章來源: https://twgreatdaily.com/116f92d64a804ffbeeae0a12223162b0.html