谷歌認真起來,就沒 OpenAI 什麼事了!創始人親自組隊創建「殺手級」多模態 AI 模型

2023-08-18   InfoQ

原標題:谷歌認真起來,就沒 OpenAI 什麼事了!創始人親自組隊創建「殺手級」多模態 AI 模型

作者 | 冬梅、 核子可樂

谷歌正在計劃如何利用即將推出的大型語言模型系列 Gemini 來取代 ChatGPT。

截至目前,OpenAI 大語言模型在 AI 競賽中一直處於領先地位。而強勁優勢的背後,離不開微軟龐大數據中心基礎設施的有力支持。但 ChatGPT 的主導地位恐怕無法長久持續下去,因為新的、更強大的 AI 模型正不斷湧現,而其中最具戰鬥力的挑戰者就來自谷歌。

今年 4 月,Alphabet 執行長桑達爾·皮查伊 (Sundar Pichai) 邁出了不尋常的一步:合併兩個具有不同文化和代碼的大型人工智慧團隊(谷歌 Brain 和 DeepMind 團隊),以趕上並超越 OpenAI 和其他競爭對手。

現在,檢驗這個團隊工作成果的時刻即將到來。有消息稱,這支數百人組成的團隊將在今年秋天發布一組大型機器學習模型 Gemini,這是該公司有史以來構建的風險最高的產品之一。據參與 Gemini 開發的人士透露,這些模型統稱為 Gemini,預計將使谷歌能夠製造出競爭對手無法製造的產品。

谷歌 Gemini 於今年 5 月在 I/O 開發者大會上首度亮相。

當時,谷歌稱 Gemini 為其下一代基礎模型,它仍在訓練中。Gemini 是從一開始就以多模式、高效的工具和 API 集成為目標而創建的,旨在支持未來的創新,例如內存和規劃。經過微調和嚴格的安全測試後,Gemini 將提供各種尺寸和功能,就像 PaLM 2 一樣。

1全世界都在關心的 Gemini 到底是個啥?

早在 2016 年,DeepMind 就因其人工智慧程序 AlphaGo 在複雜的圍棋遊戲中擊敗了一位冠軍選手而成為頭條新聞。快進到今天,DeepMind 執行長 Demis Hassabis 透露,他的團隊正在利用 AlphaGo 的變革性技術來創建 Gemini AI。Demis Hassabis 透露,Gemini AI 的開發成本估計為數億美元,使用了數萬顆谷歌的 TPU AI 晶片進行訓練

據悉,Gemini AI 是一個類似於 ChatGPT 的 GPT-4 的大規模語言模型。然而,Hassabis 和他的團隊更進一步,為 Gemini AI 注入了源自 AlphaGo 的解決問題能力和戰略規劃能力。

從根本上講,Gemini AI 包含下一代 AI 架構,有望取代 Google 當前的 AI 模型 PaLM 2。該模型目前支持 Google 的一系列 AI 服務,例如 Workspace 應用程式中廣泛使用的 Duet AI 和流行的 Bard 聊天機器人。

谷歌還放出消息,稱 Gemini 將為旗下 AI 聊天機器人 Bard,以及 Google Docs、Slides 等企業級應用提供支持。

The Information 報道稱,谷歌並不是簡單地與 ChatGPT 等產品競爭,而是打算超越一眾大模型產品讓友商們無法望其項背。消息人士指出,該公司專注於將大型語言模型 (LLM) 的文本功能與人工智慧圖像生成相結合,以創建多功能產品。這意味著 Gemini 不僅能夠像 ChatGPT 那樣生成文本,還能夠創建上下文圖像,但據報道,谷歌也在考慮添加其他功能。例如,用戶最終可能能夠使用 Gemini 通過語音分析流程圖或控制軟體。

Gemini 之所以能夠成為強大的競爭對手,是因為谷歌同樣掌握著雄厚的資源儲備,特別是用於訓練 AI 模型的寶貴數據。谷歌能夠訪問 YouTube 視頻、谷歌圖書、龐大的搜索索引以及 Google Scholar 上的學術資料。其中大部分數據為谷歌所獨有,這也使其在構建頂尖 AI 模型方面占據著超越其他廠商的優勢

那麼,Gemini 在訓練中,具體都用到了哪些數據集?

Gemini 用到了哪些數據集?

據悉,Gemini 項目汲取了谷歌多個項目的數據集來訓練大模型,包括了 Google Piper monorepo、DeepMind MassiveText 以及 YouTube 中的數據。

  • 來自 Google Piper monorepo 的 Gemini 數據集(估計)

Gemini 數據集可能由大量代碼組成,以支持最終訓練模型中的推理。Google 的內部 monorepo Piper 大小為 86TB 。使用 The Pile 的每位元組 0.4412 個令牌的計算,該數據集將約為 37.9T 個令牌,或者大約是 GPT-4 中下一個最大數據集大小的兩倍(估計)。

  • 來自 DeepMind MassiveText 的 Gemini 數據集(估計)

Gemini 數據集可能由 DeepMind 的一些 MassiveText(多語言) 5T 令牌數據集組成請注意,下表是關於 Gemini 數據集的猜測(未經 Google DeepMind 確認),並且基於來自最先進的 DeepMind MassiveText(多語言)+ 1,000B 討論令牌的可用信息。MassiveText 包括網頁、書籍、新聞和代碼等文本,包含約 23.5 億個文檔, 10.5 TB 的文本量。

MassiveText 多語言數據集估計。

*四捨五入大概的數據以粗體顯示(來自 DeepMind 的 MassiveText 多語言數據集),確定的數據以斜體顯示。

  • 來自 YouTube 的 Gemini 數據集(估計)

據一位知情人士透露,谷歌的研究人員一直在使用 YouTube 來開發其下一個大型語言模型 Gemini。

據一位知情人士透露,谷歌的研究人員一直在使用 YouTube 來開發其下一個大型語言模型 Gemini。

YouTube 2023 總體統計數據(來自 Wyzowl 和 Statista):

  • 視頻總數:8 億。
  • 平均長度:11.7 分鐘。
  • 總時間:93.6 億分鐘。
  • 四捨五入以跟上每小時上傳 30,000 小時的速度:10B 分鐘。

YouTube 2023 文本統計數據:

  • 人類說話速度:每分鐘 150 個單詞 (wpm)。
  • 150wpm x 10B 分鐘 = 總計 1.5 萬億字。
  • 假設:(1) 說話僅出現在視頻的子集中,(2) 質量分類器保留分數位於前 80% 的視頻,那麼我們保留其中的 80%。
  • 1.5T 字 x 0.8 = 1.2T 字。
  • 1.2T 單詞 x 1.3 = 1.56T 文本標記。

1.5T 文本令牌不足以大幅降低 Gemini 或 GPT-5 規模模型的要求:

  • 1T 參數(20T 文本令牌)。
  • 2T 參數(40T 文本標記)。
  • 5T 參數(100T 文本令牌)。

鑒於 2023-2024 年大型語言模型對多模態的關注,可以假設視覺內容(不僅僅是文本)正在用於訓練這些模型。

在將 YouTube 上的音頻、視頻數據注入 Gemini 數據集中後,Gemini 模型就具有了多模態能力,比如,根據 YouTube 視頻訓練的模型,可以幫助需要的人根據視頻解決一些實際動手問題。

使用 YouTube 內容,還可以幫助谷歌開發更先進的文本轉視頻軟體,根據用戶想看的內容描述,自動生成詳細的視頻。

Google DeepMind 在 Piper(其 86TB monorepo)中的疊代代碼上訓練大模型(DIDACT)。使用 The Pile 的每位元組 0.4412 個令牌的計算,該數據集將約為 37.9T 個令牌,大約是 GPT-4 中下一個最大數據集大小的兩倍(預估)。這意味著訓練 Gemini 不會出現傳聞中的數據匱乏的情況。

2023 年最大數據集列表(截至 2023 年 6 月)

四捨五入大概的數據以粗體顯示,確定的數據以斜體顯示。

據稱與 GPT-4 不同,Gemini 將是首個能夠同時處理視頻、文本和圖像的多模態模型。有報告表明,Gemini 接受的訓練令牌數量是 GPT-4 的兩倍,是 PaLM 2 的 10 倍。

Gemini+GPT-4 等於 AGI?

Google Gemini 是一種多模式工具和 API 集成,旨在將 GPT-4 等語言模型與 AlphaGo 中使用的技術相結合,以增強其能力,例如規劃和解決問題。

比如,目前 GPT-4 等大語言模型的缺陷主要體現在兩方面:第一,是結果高度依賴訓練語料,如果語料存在偏見或錯誤,那麼大語言模型生成的結果也會是錯誤的;第二,是大語言模型可能會出現幻覺,給出完全不符合常識的錯誤信息,這主要是因為大語言模型只具備當前訓練語料的知識,缺乏對真實世界全面而準確的理解。

Gemini 作為先進的數學定理證明系統,與 GPT4 等大型語言模型相結合,有可能解決人工智慧模型中搜索和規劃的弱點,並生成新的定理。有專家預測,該模型可以在五年內達到 MMLU 基準的 100 分。

谷歌在構建和訓練大語言模型方面還有著深厚的人才池和多年實踐經驗。除了預計於明年秋季發布的新模型之外,谷歌還有意發布由 Gemin 驅動的新聊天機器人,或者藉此升級現有 Bard 聊天機器人。照慣例來看,新模型應該會通過 Google Cloud 對外發布,這無疑會對谷歌的雲業務產生深遠的積極影響。

Gemini 在上月谷歌開發者大會上首度亮相時曾遭嘲笑,期間谷歌展示的幾個 AI 項目也未受認可。

谷歌稱,Gemini 項目的下一代 AI 模型最早將於今年秋季推出。

2聯合創始人謝爾蓋·布林躬身入局,組建研發團隊

在將谷歌 Brain 和 DeepMind 兩大 AI 部門合併時,掌門人皮查伊稱是為了提高部門運作效率,將谷歌龐大的計算資源同 DeepMind 的研究技能結合起來。

消息人士指出,谷歌大腦和 DeepMind 團隊的幾位前成員目前正在研究 Gemini。其中包括 Google 高級研究員 Paul Barham 和 DeepMind 的 Tom Hennigan,後者專注於 Gemini 的基礎設施。然而,最引人注目的團隊成員可能是谷歌聯合創始人謝爾蓋·布林 (Sergey Brin)。

據報道,2022 年底,布林開始更頻繁地進入谷歌辦公室。在谷歌於 2022 年底因 OpenAI 失去研究人員後,人們認為布林正在專注於 Gemini 的招聘流程。現在,消息人士稱,他在評估和訓練 Gemini 模型方面發揮了重要作用。

在此之前,兩大部門也分別對 ChatGPT 做出了自己的回應。DeepMind 這邊有 Goodall 項目,使用了一種名為 Chipmunk 的未公開模型,另一部門則拿出基於 Google Brain 模型的 Bard。儘管雙方之間存在一定競爭,DeepMind 還是決定放棄 Goodall,轉而在 Gemini 上攜手合作。

3ChatGPT 的統治將就此終結?

事實上,Google Brain 和 DeepMind 的通力合作必然給 OpenAI 及其他競爭對手帶來麻煩。當然,谷歌具體如何打造 Gemini 才是決定性因素。報道表明,Gemini 在多模態能力方面取得了顯著進步,切實超越了以往模型。其設計側重於多模態,意味著它能夠理解和處理多種不同形式數據,並在工具與 API 集成方面極為高效。

具體來講,Gemini 不僅擅長理解和生成會話文本,而且精通處理多種其他輸入,例如文本、圖像和視頻。另有報道表明,Gemini 能夠接收的 token 數量可達 GPT-4 的兩倍,這應該能夠支撐起更強的智能度優勢。

隨著生成式人工智慧競爭格局的加劇,谷歌準備通過推出 Gemini AI 來展示其真正的能力。谷歌從匆忙引入 Bard 中汲取了寶貴的經驗教訓,決心確保無懈可擊地進入市場。預計到 2030 年,生成式人工智慧市場將達到 1093.7 億美元,投資者和客戶熱情高漲,加劇了主導地位的爭奪。谷歌著眼於徹底改變行業,已準備好釋放 Gemini AI 的全部潛力,塑造文本分析人工智慧解決方案的未來。

原文連結

https://indianexpress.com/article/technology/artificial-intelligence/google-gemini-ai-fall-launch-chatgpt-edge-8896455/lite/

https://www.androidpolice.com/google-ai-gemini-chatbot/

https://www.theinformation.com/articles/the-forced-marriage-at-the-heart-of-googles-ai-race?irclickid=XepQ8kzcBxyPURYQqf1uq0VoUkF3jszhq2PuWY0&irgwc=1&utm_source=affiliate&utm_medium=cpa&utm_campaign=10078-Skimbit%20Ltd.&utm_term=androidpolice.com

https://insights.daffodilsw.com/blog/google-gemini-algorithm-the-next-level-ai-model

https://lifearchitect.ai/gemini/

通用人工智慧大牛 Marcus Hutter:AI 能完成人類半數的工作,但讓人類失業是一件美好的事情

吵翻了!到底該選 Rust 還是 Go,成2023年最大技術分歧

我的20年職業生涯:全是技術債

中國最大公有雲服務商,如何從零開始構建一支雲效團隊

內容推薦

本期《中國卓越技術團隊訪談錄》深入採訪了騰訊、網易伏羲、阿里雲、QQ 技術團隊等技術團隊,分享了這些團隊在向量資料庫、大模型、前端和研效等方面的技術落地、產品演進和團隊建設等方面的多年經驗及心得體會。識別下圖二維碼或點擊閱讀原文,立即查看全部內容!

讀者福利

中國企業研發高效能白皮書(合集)