谷歌「最強」AI誕生！聽、說、看、寫樣樣精通，還能教人做飯……

沒想到，擁有「AI」後的世界已經發展成這樣了！

自從去年ChatGPT面世後，今年5月谷歌也坐不住了，宣布要搞AI大模型，但由於種種原因，一直等到大半年後的今天，才正式發布了新一代大語言模型「Gemini」。

谷歌出手，就是不同凡響，雖然步子慢了，但成果很「硬核」。在官方演示中，Gemini可以非常自如地在圖像、音頻、視頻各模態之間轉換，其能力也讓人刮目相看，例如根據一張地圖和表情符號，就能設計出「猜國家」遊戲；或者根據文字和圖像，猜出是哪部電影......

這還不夠，它還會教人念中文並區分四個聲調，甚至能手把手教你做飯，有種上班是老師，下班秒變「小廚師」的感覺，任誰看了不直呼一句「厲害」！

難怪谷歌官方稱，Gemini是谷歌迄今為止「最大、最全能的AI模型」，它能夠進行更複雜的推理，理解更加細微的信息，甚至像人一樣理解周圍的世界。換句話說，它比之前任何技術都要牛！廢話不多說，下面我們就來看看，這個AI大模型有多厲害。

長話短說，谷歌將Gemini定義為一款「原生多模態」模型！直白點解釋就是，Gemini一出廠就是「全科發展」，多種感官在模型內統一學習，而不是單獨學習再拼接到一起。

這裡拿出OpenAI做典型，OpenAI的GPT-3.5一開始是純文字大語言模型，直到GPT-4才安排了視覺等多模態能力，這種組裝拼接吧，就好比先學了語文再學數學，極大可能帶來「偏科」問題。

但全面發展的Gemini就不同，它從第一天起就設計成原生多模態結構，相當於「所有科目一起學」，用谷歌的話講，它能無縫理解、操作不同類型的信息，包括文本、代碼、音頻、圖像和視頻等，不需要額外轉換，各種模態的性能也更為平衡。

這裡再舉個簡單的例子：同樣是要理解圖像信息，像GPT-4這樣的非原生多模態結構模型，需要先藉助OCR（光學字符識別技術）先「認出來」圖里是什麼——轉成文本，再放到語言模型中進行語義理解。而Gemini能基於圖像馬上進行理解，這種端到端的理解，不會讓信息在「轉錄」過程中丟失。

這樣一對比，想必大家就都懂了。

看來，谷歌稱Gemini超越了GPT-4，還真不是瞎吹牛！值得一提的是，谷歌這次一口氣提供了Gemini的三個尺寸模型：Gemini Ultra、Gemini Pro、Gemini Nano ，並分別對其進行了優化。

其中，Gemini Ultra版本功能最強大，能夠完成高度複雜的任務，主要面向數據中心和企業級應用；Gemini Pro則是性能最好的模型，可以執行多種任務，將通過谷歌的類ChatGPT聊天機器人Bard，為眾多谷歌AI服務提供支持，加持谷歌的Gmail、Maps Docs和YouTube等服務。

最後就是Gemini Nano，這是最高效的模型，用於設備端任務，可以在安卓設備上本地和離線運行。按照谷歌所說，該模型將首次內置於谷歌手機Pixel 8 Pro上，支持錄音自動摘要、鍵盤智能回復兩項功能，未來預計將更多功能置於安卓手機離線運行。

鍵盤自動生成回復語

整體來看，Gemini的多樣化設計，使其能夠在各種設備上運行，從手機到大型數據中心均適用，其優勢顯而易見。話雖這麼說，但紙上談兵可沒有信服力！

既然是被拿來「硬剛」GPT-4的模型，Gemini當然少不了經歷一番測試。

根據內部消息，在推出Gemini之前，谷歌就對該模型進行過一系列標準測試。結果顯示，性能上，Gemini訓練所用的算力達到GPT-4的五倍，非常出色。其中，特別是在語言理解、推理、數學和編程測試中表現更佳。尤其是Gemini Ultra，在32個常用的學術基準的30個上，已經超越GPT-4。

並且Gemini Ultra在大規模多任務語言理解任務上，得分高達90.0%，是首個超越人類專家的模型。

谷歌DeepMind CEO Demis Hassabis表示：「這是我們目前規模最大，性能最強的大模型，Gemini可以像我們一樣，理解我們周圍的世界。」確實，對於普通人而言，Gemini也大有用處，它可以同時識別和理解文本、圖像、音頻等各種形式的輸入內容，因此能更好地理解細微的信息，回答與複雜主題相關的各類問題。

具體來看，對於圖像理解方面，根據谷歌在發布會放出的演示視頻，Gemini是玩「你畫我猜」的一把好手，不僅能準確地描繪出測試者在紙上畫出的圖形，還能根據測試者畫出的輪廓，猜測出她繪製的是什麼東西。

此外，它還能根據給出的文字和圖像，正確猜出所指電影的名字；又或者根據所給的服裝圖像，告訴你使用場景，甚至為這套搭配取名。

甚至它還能把圖像，轉變成代碼......

而在音頻理解上，Gemini也是一把好手，例如用戶上傳了一段非英語的音頻，然後又錄了一段英語的音頻來提問。這聽起來似乎有點麻煩，但Gemini卻可以輕鬆解決，它能同時處理兩段不同語言的音頻，並精準輸出所需要的摘要內容，讓人眼前一亮。

還沒完！Gemini還能根據指示，教工作人員「鴨子」的普通話發音，並解釋了漢語聲調，點個贊！

更厲害的是，它還能教你做飯，例如煎個蛋？你可以用語音問Gemini，還可以把手頭有的食材拍個照片發過去，然後Gemini就會結合配圖中的食材，及所發送的音頻需求，來一步步教你怎麼做出完美的煎蛋。沒想到，有一天AI也能指導做飯，各位不會做飯星人有救了。

重點來了，Gemini理解文本的能力也不容小覷，它尤其擅長解釋數學和物理等複雜科目中的推理。對於很多家長來說，輔導孩子作業也是下班後「必不可少的工作」，但有時一些題目自己也不會，或者因為一些別的事，沒時間輔導孩子，該怎麼辦呢？答案很簡單，拍張圖交給Gemini就完事了。

它在給出正確答案的基礎上，還能針對解答過程中孩子不懂的步驟給出具體解釋，甚至它還可以指出孩子解答過程中具體出錯的點。最後，你還可以直接讓Gemini輸出一個和出錯類型相似的題目，讓孩子再鞏固一下知識點。

其它方面，Gemini在辨認環境、物體等場景，也不在話下。從谷歌演示來看，給它一張充滿陽光的房間照片，它就能推理出來這個房間是朝南朝北，甚至告訴你房間裡的植物應該要怎麼照顧。整個交流過程十分順暢，可見Gemini在多語言環境下表現出眾，完全不亞於GPT-4。

官方介紹，在Gemini的三個尺寸模型中，Gemini Pro已率先被用在谷歌聊天機器Bard的升級上。經過谷歌測試後，Gemini Pro的表現要優於GPT-3.5。

而為了進一步展現升級後的Bard有多強，谷歌還請了油管教育博主Mark Rober，全程使用Bard作為輔助工具，從零開始畫圖紙，最後真的造出了一架巨大的紙飛機。

說了這麼多，其實無論是指導做飯，還是輔助造紙飛機，都直觀說明了，Gemini確實給普通大眾的生活，帶來了一定幫助，讓AI真正融入日常。

當然，除了上面說到的這些之外，谷歌還展示了Gemini的很多能力，例如讀柱狀圖，生成表格；或者直接生成圖文並茂的博客；以及展示圖形邏輯的推理，還有更為複雜的編程等等，這些都很好說明了Gemini確實很聰明，智慧。

說了這麼多，總之從谷歌公布的一系列參數和操作展示來看，Gemini的「AI能力」有目共睹，確實越來越像一位真正的「人類助手」！

現如今，人工智慧迎來發展浪潮，對於谷歌而言，在AI即使早在AI領域深耕多年，擁有優質人才和深厚技術積累，卻被OpenAI搶了先，以至於後面不得不奮力追趕。

細數下來，今年3月OpenAI發布GPT-4，隨後谷歌搞了一款Bard的聊天機器人，但可惜這款對標ChatGPT的機器人並沒有獲得很大的市場聲量。後面的故事也不少，谷歌連續官宣戰略合作、緊急發布多個AI工具等等，這些大動作，無疑都表明了谷歌在強烈反擊。

直到「谷歌大腦」與Alphabet旗下的人工智慧實驗室DeepMind合併後，數百名AI精兵瘋狂衝刺，才有了Gemini的誕生。現在憑藉Gemini的強大實力，谷歌終於揚眉吐氣，據說Gemini官宣發布後，不少OpenAI的研究員也都發文祝賀谷歌。

而縱觀當下整個AI浪潮發展史，Gemini的發布無疑是AI界又一個里程碑，這意味著AI大模型浪潮進入到一個全新階段，比起大語言模型，這種多模態模型的運作模式，才是人類最自然的和世界交互的方式。

但話說回來，多模態領域還在技術探索初期，Gemini的發布也只是掀起了其中一角，但這也將直接導致全球的AI大模型競賽進入新一輪競爭，那麼就期待下谷歌或OpenAI，會不會再掀起巨大水花吧。

本文由極果用戶極果媒體原創

谷歌「最強」AI誕生！聽、說、看、寫樣樣精通，還能教人做飯……

炸鍋！蘋果史上最大泄密事件竟是自導自演？！M4版MacBook下月發

一機多能！華為Mate XT 非凡大師以超越期待的創新，再次書寫領先

AMD銳龍AI 9 HX 370筆記本處理器評測：能效比逆天表現驚喜

AI遇到縱向摺疊屏，三星Galaxy Z Flip6講述掌心智能

華為一大波新品重磅登場！筆記本用上手寫筆，電視能當手機玩，199元起「殺瘋了」！

蔚來宣戰Model Y！子品牌樂道L60實車現身，空間更大能換電，只賣17萬？

全新iPad Pro真機上手！M4晶片強到離譜，會震的Apple pencil很上頭...

華為，這下不裝了！純血鴻蒙問世，全球第三大作業系統誕生，徹底淘汰安卓App

華為新品牌手機曝光，只賣3000多？！搭載鴻蒙+麒麟芯黃金組合，期待值拉滿…

小米最強旗艦殺到！配置堆料十足，衛星通信終於實裝...太猛了

旗艦機驚險淬鍊！刀鋒林立「突刺」奇襲，誰能完好無虞？（視頻揭秘）

旗艦機極限實測｜超高速相機捕捉玻璃對爆奇觀，碎屑迸濺誰能剛到最後！

AI如何應對「超載工作」？我們用Copilot 體驗了一番

商湯科技「元蘿蔔光翼燈」引領智能檯燈3.0時代，AI拓寬家庭應用場景

35.98萬元起！小鵬X9發布，標配空懸後輪轉向，理想MEGA完了？

下一個客廳C位，可能是部「巨幕手機」

華為何剛發布會籌備秘密武器曝光，新款「巨幕手機」支持百種玩法

理想L7重大事故惹爭議！AB柱均斷裂，網友質疑：汽車安全不過關？

更便宜的麒麟5G手機馬上到，華為Mate 60同款配置，價格僅一半...

金磚一刻行千里，極氪發布全球量產最快充電速度的磷酸鐵鋰電池

谷歌「最強」AI誕生！聽、說、看、寫樣樣精通，還能教人做飯……

全球首發顯示新品亮相DTC 2023， TCL華星智慧屏顯生態全面進化

從寫到發只要5分鐘？深度揭秘星火內容運營大師，如何用AI幫你打工

小米汽車進入量產！三年三款，純電增程全都有，售價有驚喜？