(映維網Nweon 2023年12月07日)今年是Meta(原Facebook)的Fundamental AI Research(FAIR)基礎人工智慧研究團隊成立10周年。在名為《慶祝十年人工智慧創新+ AR/VR的未來》的一文中,團隊談到了人工智慧的潛力及其在AR/VR未來中的作用。下面是具體的整理:
FAIR正通過引入新的模型、數據集和跨越音頻生成、以及多模態感知的更新來慶祝成立10周年這個裡程碑。這同時提醒著我們,儘管人工智慧可能是當今的熱門話題,但它多年來一直是我們公司DNA的一部分。
Meta首席技術官兼Reality Labs負責人安德魯·博斯沃思(Andrew Bosworth)表示:「從Facebook成立之初就很十分明顯,人工智慧將成為我們公司最重要的技術之一,甚至可能是最重要的技術。」
實際上,博斯沃思恰好是公司聘用的第一位人工智慧員工。博斯沃思回憶道:「我能夠設計和構建我們的第一個基於啟發式的News Feed系統,然後是通過Coefficient算法構建的機器學習系統。當然,我的人工智慧知識很快就過時了。記得當我在教馬克(執行長扎克伯格)的時候,人們認為神經網絡是一個死胡同。我們把它當作一項局限性已經暴露出來的曾經偉大的技術。當然,幾年後當我開始從事廣告工作時,神經網絡的革命已經成熟。我非常高興與我們的團隊研發我們的第一個稀疏神經網絡實現和Pytorch。」
在人工智慧的早期,整個科技行業都非常興奮,開啟了建立尖端人工智慧團隊的競賽。但馬克·扎克伯格很早就決定把一個基礎性人工智慧研究實驗室作為公司人工智慧工作的核心。
博斯沃思指出:「從2013年開始,FAIR為人工智慧行業研究實驗室設定了全新的標準。我們優先考慮公開研究,與整個研究業界合作,並且我們發表並開源了我們的大部分工作,這加快了每個人的進步。」
在一年內,FAIR開始發布其工作成果。2017年,PyTorch開源,並迅速成為用於在研究和生產中構建尖端人工智慧的通用框架。從Feed排名和內容推薦到相關廣告的交付,圖像和貼紙生成,以及你可以與之互動的人工智慧,人工智慧已經開始影響Meta的業務和最重要的戰略重點。
博斯沃思表示:「儘管這項工作令人興奮,但它依然處於起步階段。它不僅將在我們今天擁有的產品中發揮重要作用,而且將在以前不可能的產品中發揮重要作用,當然包括可穿戴設備和增強現實領域的產品。我們在所述領域的願景實際上取決於人工智慧,它能夠真正理解我們周圍的世界,並預測我們的需求。我們相信,這種情境化人工智慧將成為繼PC之後的第一個真正新計算平台的基石。」
首席科學家麥可·亞伯拉什(Michael Abrash)補充道:「我在過去十年里的大部分時間都用於來領導旨在創建一種基於AR/VR的新型計算平台的研究工作,而Reality Labs的其他成員則致力於確保所述平台成為現實。這是Meta對未來技術的兩大長期押注之一,另一個當然是人工智慧。在我們慶祝FAIR成立10周年之際,看到這兩項長期投資如何以一種如同科幻小說的方式結合在一起,我感到非常興奮。」
1957年,約瑟夫·利克萊德首次提出了人機共生的願景,即計算機與人類合作,完成人類不擅長的工作,從而將我們解放出來,令我們變得更有創造力。這一願景最終使得一批人才聚集在施樂帕洛阿爾托研究中心,並於1973年推出了Alto電腦,而緊接而來的則是1984年的Mac電腦。
亞伯拉什說道:「以人為本的計算機革命已經變得如此無所不包,我甚至不需要問你是不是。我確信你們每個人都在使用Alto的直系後代,而現在你們身邊就有一個小型化的版本(手機)。我們生活在利克萊德創造的世界裡。儘管這種人機互動模型很強大,但相對於人類吸收信息和採取行動的能力而言,它依然受到了極大的限制。」
儘管人類通過我們的六種感官從我們周圍的3D環境中接收信息,但數字世界往往只能通過尺寸太小的2D螢幕來訪問。
亞伯拉什解釋道:「今天的2D模型只是觸及了我們感知和能力的表面。相比之下,AR眼鏡和VR頭顯可以以接近現實的方式驅動你的感官。這有可能使得人類無視距離而真正地彼此共在。在極限情況下,它可能有一天允許人類擁有他們任何體驗,而這本身就會改變世界。」
有了情景式人工智慧,一種永不疲倦、隨時可用的主動助手,AR眼鏡和VR頭顯可以幫助你實現目標,增強你的感知、記憶和認知能力,令你的生活變得更輕鬆、更高效。
亞伯拉什指出:「這在以前是不可能的,因為以前沒有一種設備可以從你的視角來感知你的生活。我相信這可能最終成為AR/VR革命最重要的方面。就像圖形用戶介面GUI是我們今天與數字世界交互的方式一樣,情境式人工智慧將是未來的人機介面,並將比GUI更具變革性,因為它直接觸及幫助我們以自己想要方式生活的核心。」
這種轉變現在已經開始發生。經過十年的研究,各個環節正在整合在一起。明年,當Meta將多模態人工智慧帶到Ray-Ban Meta智能眼鏡,並使用Ego-Exo4D基礎數據集進行視頻和多模態感知研究時,你將能瞥見未來。但這僅僅是個開始。未來完整的情境人工智慧系統需要各種各樣現在根本不存在的技術。
亞伯拉什表示:「我過去總會想像努力著努力著,然後有一個方框說『奇蹟發生了』。然後在過去的幾年裡,奇蹟真的發生了。大型語言模型LLMs出現了,它具有處理多模態推理所需的潛力,可以理解用戶的目標,並根據情景和歷史幫助他們實現目標。關鍵在於,LLMs有可能在視覺、音頻、語音、眼動追蹤、手動追蹤、肌電圖和其他情景輸入、你的歷史和廣泛的世界知識之間進行推理,然後採取行動幫助你實現目標,在需要的時候引導你或消除歧義。為了實現這一潛力,LLMs需要帶到一個不同的層次,而FAIR是實現這一目標的理想團隊。作為一個整體,FAIR的人工智慧研究與Reality Labs的AR/VR研究的融合彙集了創建情景式人工智慧介面所需的所有元素,而這將會完全實現Meta對未來的願景。」