蘋果MR設備Vision Pro技術解析:極限堆料下,空間計算新時代開啟

2023-06-08     VR陀螺

原標題:蘋果MR設備Vision Pro技術解析:極限堆料下,空間計算新時代開啟

文/VR陀螺 案山子

在經歷了冗長的iPhone、iPad、Apple Watch、Mac產品與系統介紹後,現場的所有觀眾,以及遠程所有沉浸在「不眠之夜」里的從業者們,在庫克的一聲「One more thing」下,開始轟動起來。沉寂的現場也響起了轟鳴的掌聲和尖叫聲。

不知從何時起,蘋果發VR/AR設備的消息,就像從業者心中的一塊大石,一直懸著,牽動著整個產業……

直到今天,這顆大石終於落下,蘋果MR終端——Vision Pro正式發布。而基於蘋果加入XR戰局,產業將迎來一個全新的時代。

VR陀螺有幸在現場見證這一時刻,懷著無比激動的心情,我們也不禁想要剖析,蘋果的首款MR設備,究竟蘊含了什麼意義,哪些技術點值得關注。

圖源:VR陀螺

新的空間計算時代開啟,向著終極目標——AR

「今天標誌著計算技術新時代的開端」。蘋果公司CEO Tim Cook(以下簡稱庫克)說興奮地說道。

「如同 Mac將我們帶入個人計算時代, iPhone將我們帶入移動計算時代,Apple Vision Pro將帶我們進入空間計算時代。基於 Apple 數十年的創新積累,Vision Pro 是遙遙領先的空前之創,帶來革命性的全新輸入系統和數以千計的創新技術。它為用戶帶來絕佳體驗,並為開發者帶來振奮人心的新機會。」

計算平台從PC發展至手機,雖然螢幕實現了從大到小,使用場景從家用到移動便攜,從非智能到智能,但是人機互動、人與人、人與世界的交互方式,仍然被局限於一塊2D的顯示屏中,它有界限,所以無法提供極致的沉浸感,這也是VR一出現就讓萬千從業者興奮不已的原因所在。

未來的網際網路形態,將是3D空間網際網路,將徹底改變人與機器、人與人、物與物之間的交互方式。而未來3D空間網際網路的入口,在實現腦機接口之前,VR陀螺認為一定會是VR、AR終端。

但究竟是VR還是AR終端,如果單從業界目前對產品的劃定來看,蘋果Vision Pro從形態和技術路徑上來看,顯然會被劃入到VR的行列中,它通過全彩「Video See Through」(以下簡稱VST)來實現MR融合效果,在此之前,包括Meta、PICO以及其他的創業公司VR頭顯均已在此方向推出相關產品。

MR的光學形態分為VST與OST,相比VR通過攝像頭先將現實捕捉下來再傳入到虛擬世界,通過算法進行融合,AR產品則直接通過光學(Optical)實現了真實世界的透視,通過對真實環境的感知讓虛擬物體與之融合。

圖源:蘋果

以上是目前核心的兩種產品形態下,實現MR的技術形式。而蘋果之所以並沒有直接在現階段推出基於OST的AR產品,而選擇了基於VST的VR產品,這背後與底層技術發展、供應鏈、產業生態息息相關。

VR在多年的發展疊代過程中,很多東西都已經逐步形成標準,如光學從菲涅爾透鏡過渡到Pancake,相應的技術路徑、實現效果以及生產工藝都已經得到驗證和完善;其他相關技術,如VST融合、眼動追蹤、手勢識別等等,也都應用相對廣泛。此外,VR的產品形態和內容生態也在多年的積累中,達到2000多萬台出貨量級,於消費市場有了一定的認知和生態基礎。

反觀AR,對於所有人理想中的終極目標——如普通眼鏡般輕薄、大FOV、低功耗、長續航、多場景、全天候佩戴……底層光學技術還處於極其分散的狀態,稜鏡、自由曲面、Birdbath、陣列波導、衍射波導、體全息波導並存,針對不同場景採用不同的光學方案也不一致。而面向消費市場,能夠滿足終極目標要求的產品,所涉及到的光學技術、顯示、交互、量產工藝、電池、功耗等等,都還需要時間疊代。另一方面,面向消費市場的AR產業生態基礎也更為薄弱,特別是內容開發生態,以及內容的商業模式,它們尚未跑通。

圖源:VR陀螺

諸多因素下,現階段顯然相較於AR,VR路徑更為靠譜。

在不久前,VR陀螺曾經發布一篇文章《蘋果MR頭顯,一次創新的折中》,從2016年開始,庫克幾乎有超過20次在公開場合表達對AR的看好,部分的交流中還提到了他對VR和AR的態度差異。總結來看,庫克的目標一直很清晰——AR。

「VR和AR都很有意思,但我目前認為二者之間,AR將更具價值。AR可以讓我們兩個人都坐下來並且面對面彼此交談,並且我們還能看到一些其他的東西。這些東西可能與我們正在談論的事情有關,可能是一些不在場的人假裝在場。」
「我非常相信AR。它可以增強我們正在進行的對話,增強學習能力,並真正放大技術與人的價值,而不是封閉或關閉現實世界。」
「AR最終會像一日三餐一樣成為每個人生活的一部分,就像iPhone一樣。與AR相比,儘管VR也很重要,但它的應用領域不會那麼大。」
「我認為AR非常有趣,是一種核心技術。所以,我們談到(我們在)幕後做了很多事情。」
「AR對於世界的影響將與網際網路本身一樣深遠。」
「我認為這(AR)將是一個像智慧型手機一樣的大創意,會像智慧型手機一樣適合所有人。」

圖源:網絡

庫克對AR的熱情不必多言,只是,多年傳言多年跳票的MR設備,為什麼會在這樣的一個時間點發布,VR陀螺認為可能會有多方面因素。

技術路徑確定了之後,首先產品端的完成度達到了一定程度。不論是VR還是AR終端,核心技術涉及諸多板塊,特別是蘋果封閉的生態下需要做的基礎工作會更多。產品、光學、交互、算法、晶片、系統,一套新的技術形態和技術範式下,很多東西都需要從頭開始,而蘋果也為此布局了多年,才能夠實現如今各層面的打通,當然它仍然不完美,所以才有了發布前傳聞蘋果內部出現對產品不同聲音的消息。

其次筆者認為,庫克自身對推動革命性技術範式的產品是有「執念」的。自2011年8月成為蘋果CEO開始,庫克至今正式任職已超過4302天,超過了史蒂夫·喬布斯的4249天。而據媒體報道,在10年任期屆滿前一年,董事會又授予了他新的股票期權,準備挽留他到2025年。

庫克商業能力無可厚非,但一直被詬病創新不足,而VR、AR恰巧是跨時代的創新產品。

正如庫克所說,「今天(Vision Po發布)標誌著計算技術新時代的開端」。或許這既是執念,也是庫克自身對蘋果的「使命」所在。

極限堆料,蘋果MR頭顯技術拆解!

行業之所以如此相信蘋果能引領風向,必然離不開蘋果的產品力。風格獨特、標籤鮮明,不去問用戶需要什麼然後去滿足,而是創造一種產品去引導用戶需求。在這樣的產品理念下,蘋果在整個消費電子市場上取得了巨大的成功,也成為了產業技術的風向標。

這也是為何所有人都期待蘋果為產業帶來變革。

首先看一下蘋果Vision Pro產品參數及核心功能:

圖源:VR陀螺

在VR陀螺看來,蘋果Vision Pro產品,讓行業見證了不計成本堆料,以實現天花板級效果的產品思路。最終也導致了售價達到3500美金。

在Vision Pro中,有幾個部分的技術板塊比較值得關註:

1.42英寸Micro OLED 4K顯示屏

顯示方面,Vision Pro主顯示屏採用Micro OLED,單眼解析度達到4K,這是目前市場上首次出現的使用Micro OLED實現雙目8K效果的產品,而事實也證明了,超高解析度所獲得的視覺體驗反饋總體非常正向,已知的體驗了產品的人幾乎都給出了相當高的評價。

目前市場上大部分的VR產品,出於成本考慮,大多採用LCD或者Mini LED背光+LCD的形式,優勢很明顯,成本低、量產成熟良率高,缺點也明顯,亮度、ppi、對比度和色域等各方面參數也更低。

不同螢幕參數對比,圖源:VR陀螺

所以如Quest 2、PICO 4價格都在2000-3000元之間。而Micro OLED單塊屏的價格就已高達上百甚至數百美元。據了解,蘋果的Mirco OLED為完全定製,尺寸達到1.42英寸,屬於目前尺寸最大的Micro OLED屏。

Micro OLED顯示屏需要採用半導體工藝,在量產工藝上實際已經成熟,只是之前大部分的產品應用於單眼相機的取景器等領域,出貨已經達到百萬級別;此外,這幾年Birdbath方案的AR眼鏡也是Micro OLED的一個重要應用陣地;但前面這些領域所使用的螢幕尺寸都在1英寸以內,如AR眼鏡所採用的尺寸多為0.71、0.68、0.49英寸三個尺寸,而之所以沒有出更大尺寸的產品,是由於之前並沒有相關的市場需求。

如今應用到VR產品中,為了獲得更大的FOV,也就需要更大的螢幕支撐,所以供應鏈企業都在著力研發1.3英寸以上的Micro OLED螢幕。這也意味著對量產工藝有更高的要求,因為即便工藝成熟,但要在擴大兩倍的螢幕上,維持同樣的質量標準,如色彩、灰階、亮度、均勻性、壞點等都不超出原有質量標準,所以提升良率是目前Micro OLED廠商需要面對和解決的問題核心。

M2+R1雙晶片搭配

雙晶片搭配也是目前MR設備(主要指VR)中首次出現的方案。M2原本就屬於蘋果最高規格系列SOC,主要用於Mac電腦中,所以用在此次的MR設備中相當於將PC端的處理能力帶到了移動端。

M2晶片性能圖,圖源:網絡

由於M2是2022年發布的晶片平台,其性能在此不過多贅述。相比M2,此次發布的M2 Ultra也非常值得關注。它由1340億個電晶體組成,比M1 Ultra多200億個。雖然尚未用在MR設備中,但介紹的很多技術性能顯然是有針對性的優化的。如GPU性能是M2 Max的兩倍,可實現極快的ProRes加速。在配備M2 Ultra的Mac Studio上使用Octane渲染3D效果,比配備M1 Ultra的Mac Studio快3倍;32核神經網絡引擎,每秒可提供31.6萬億次運算,比M1 Ultra快40%;具有專用的、支持硬體的 H.264、HEVC和ProRes編碼和解碼功能,能夠播放多達22個8K ProRes 422視頻流;顯示引擎最多支持六個Pro Display XDR,驅動超過1億像素。

核心運算、3D渲染、AI神經網絡、視頻解碼、顯示支持等,都是MR中極其需要的核心能力,而且其性能遠超現有的VR一體機使用的移動平台SOC的性能。

已經有了如此強大的主處理晶片,為何還要使用協處理晶片也是產品設計中值得玩味的地方。

協處理晶片在AR中目前即將開始應用,如高通發布的AR2,就是針對AR眼鏡實現Slam及無線功能的協處理晶片,將空間定位數據用單獨的晶片來進行處理,以減輕對主處理器的負荷。如果說AR是基於輕量化和無線化考慮的話,那蘋果之所以會用協處理,看起來似乎更像是傳感器過多,所帶來的處理壓力需要分擔出來。

在蘋果Vision Pro上,共有12個攝像頭,5個傳感器(其中 1*LiDAR、2*結構光深度傳感、2*IR紅外傳感),他們分別用來處理Slam空間環境感知、手勢識別、三維建模和眼動追蹤等功能。

圖源:蘋果

對運算比較高的主要來自實現VST的兩個4K RGB攝像頭,這是實現高清VST效果的關鍵,並且其長時間屬於運行狀態。Quest Pro上僅搭載1個1600萬像素的RGB,所以傳輸到眼鏡中的現實畫面清晰度較低。

Vision Pro支持虛擬和現實環境無縫切換。與其他產品直接從虛擬一鍵切換到現實的效果不同的是,Vision Pro通過旋鈕實現精準絲滑的漸變效果。而為了實現這個效果,協處理器中RGB VST的處理需要一直工作,即便在純虛擬環境下也處於工作狀態,以便為用戶隨時切換。雙4K RGB攝像頭以每秒60幀頻率不斷拍攝,為數據處理帶來了龐大的計算量,以及相應的功耗,所以作為協處理晶片,R1的製程達到了5nm。

高清+流暢的VST效果是Vision Pro的技術亮點之一,根據官方公布的數據,其圖像延遲低於12ms。

據了解,延遲分為物理延遲和入眼延遲,蘋果此處所指應為物理延遲。

所謂的物理延遲也就是傳感器出來經過協處理器,到直接上屏的時間。但是上螢幕之前算法必須要做補償,算法不補的延遲稱為物理延遲,算法補完後稱為入眼延遲。

據了解,如果使用Meta這種不經過協處理器的情況下,經過CPU、GPU處理,物理延遲約30-40ms,物理延遲越大,算法補出來的效果就會稍微有點欠缺。所以蘋果物理延遲做到極致以後,它算法補出來的效果就會特別的好,這也是為什麼VST效果幾乎感覺不到延遲的主要原因。

協處理晶片與主處理晶片處理VST的路徑差異,圖源:VR陀螺

對比兩種不同的處理路徑,顯然協處理在VST這個板塊效率要更高。

除此兩個4K RGB攝像頭的圖像處理之外,Vision Pro其他傳感器的使用數量也遠遠超過其他VR設備。以Quest Pro為例,頭顯上的攝像頭+傳感器為10個;蘋果達到了17個。蘋果增加了1個雷射雷達和2個結構光深度傳感器,用來實現更好的三維空間建模和空間感知,以及用於創建Avatar的面部三維重構。應用場景中的3D圖像和視頻拍攝就是基於這些傳感器結合RGB攝像頭來實現。

在眼動追蹤部分,蘋果也採用了4個攝像頭,與此對應的Quest Pro僅使用2個,不得不說,為了效果蘋果似乎完全沒考慮成本。

瘋狂堆料同時也帶來了一些弊端——功耗大,單眼4K的Micro OLED屏+眾多傳感器數據處理,導致了外掛的電池續航僅有2個小時,此外發熱應該也是其需要解決的核心問題之一。

(本部分內容感謝協處理晶片企業耀宇視芯杜逢博博士的大力支持)

外置電池,圖源:蘋果

3P Pancake,光學效果>工藝難度、重量

Pancake摺疊光路是目前VR設備的主流光學方案,蘋果也不例外採用了該方案。相比傳統VR顯示光機(菲涅爾和非球面),Pancake摺疊光路設計可以大幅減小厚度,其核心原理是圖像源進入半反半透功能的鏡片之後,光線在鏡片、相位延遲片以及反射式偏振片之間多次折返,最終從反射式偏振片射出。

相比PICO 雙鏡片的方案,蘋果採用了3片鏡片,從而實現更好的光學效果。

2P Pancake光學方案原理圖,圖源:網絡

相比於1P、2P Pancake設計(TTL基本在20mm以上),3P Pancake光機模組不僅能帶來更高的清晰度、更小的畸變以及色差之外,經過多次折返其厚度還能進一步縮短。但劣勢也比較明顯,會增加工藝難度以及物料成本、重量,可見在光學方面,蘋果為了實現最好的視覺效果,選擇了工藝最難的方向。

此外,由於Pancake的光損較大,所以需要高亮度的螢幕來實現更高的入眼亮度,這也是Micro OLED的優勢之一。

從蘋果真機厚度來看,(目測)去掉海綿眼罩的頭顯厚度約30多毫米,得益於優秀的工業設計(視覺錯位),整體觀感會覺得頭顯很輕薄。

頭顯實拍圖,圖源:VR陀螺

隱私安全的最佳方案:虹膜識別

數日前,七鑫易維、騰訊微信支付聯合推出的眼動追動+虹膜識別VR/AR內的支付方案的消息公布,VR陀螺也第一時間到創維公司體驗了搭載該模組的方案,這也是國內首次在商用VR頭顯中搭載虹膜識別支付方案。

VR/AR內的支付一直是困擾企業的痛點,基於VR/AR的產品形態和交互方式,目前常用的指紋、面部、密碼並不適用,由於難以在體驗過程中無縫實現支付,所以大部分的應用採用了在手機APP端以一次性付費下載的方式進行。

虹膜被視為是未來VR/AR中理想的隱私安全技術方案,首先其相比指紋、面部、密碼的安全係數更高。虹膜的特徵人各有異,連同卵雙胞胎也不例外。在出生18個月後,虹膜就已定型,終生不變,受外界氣候環境變化、身體變化等影響非常小,是一項非常穩定的生物特徵。這決定了虹膜特徵的獨特性,同時也決定了身份識別的唯一性。因此,人們發現,將虹膜作為密碼,具有更好的長期安全性。

圖源:蘋果

虹膜識別實際上也是比較成熟的技術,早是20多年前就已經應用於安防級別較高的軍事、科研單位等,如今也逐漸開始應用到消費市場,包括部分手機上。

虹膜的主要原理是通過圖像採集系統,採集虹膜照片後對圖像預處理,從採集圖像中,準確定位找出虹膜,並進行圖像增強處理;接下來提取虹膜特徵,採用特定的算法從虹膜圖像中提取出虹膜識別所需的特徵點,並對其進行編碼;最後匹配虹膜身份,將特徵提取得到的特徵編碼與資料庫中的虹膜圖像特徵編碼逐一匹配,判斷是否為相同虹膜,從而達到身份識別的目的。

其核心方式與面部、指紋相似,安全係數更高主要在與虹膜的重合率極低,且不會輕易被別人採集用於違法等活動。

同時,其與VR/AR天然結合。據了解,在VR/AR設備中可以直接共用眼動追蹤模組來對虹膜進行拍攝和識別,不需要額外的硬體模組,並且,其對於捕捉端的像素要求不高,200萬像素就可以實現比較好的效果。

在識別率和適用性上,虹膜幾乎對所有不同瞳色的人,都能實現很準確的識別,即便是青光眼、白內障等眼疾人群,理論上也不會影響,因為眼疾影響的不是虹膜信息,而是晶狀體部位。但是有些疾病,比如說不小心把眼睛的瞳孔變成橢圓或者方形,那基本上就很難識別了。

可以預見的是,國內騰訊推動,海外蘋果MR內置的虹膜功能,或許很快就能在更多的VR終端中看到。

(本部分內容感謝虹膜識別企業點與面科技程總的大力支持)

圖源:VR陀螺

實時+高自由,空間音頻射線追蹤技術

相比視覺,聽覺的重視程度並不高,不過蘋果在這方面也有所布局,在此次Vision Pro中有所呈現。

就像光線追蹤一樣,聲音也可以用射線追蹤,這種被稱為幾何聲學(GA)。早在2021年,蘋果就公布了相關的技術專利。

與可視化類似,虛擬環境的所謂 "聽覺化 "描述了聲音在圍牆內傳播的模擬,其中幾何聲學(GA)的方法可用於模仿合成聲波的某些現實行為帶來的聽覺刺激。

圖源:VR陀螺

據了解,在這種模擬中,可以生成空間音頻信號,其考慮到了三維環境中的各種聲波反射模型,以及聲波混響模型。這種空間音頻可以例如使用數字音頻工作站(DAW)軟體等生成,並可用於各種應用,如房間規劃和/或音樂及建築聲音模擬。

目前的空間音頻合成軟體通常可以管理實時模擬移動接收器周圍的移動聲源的計算負荷,然而,這些模擬往往是基於靜態混響的。在現實世界的場景中,聲波和反射性/阻礙性表面之間存在著顯著的相互作用,例如,在進入或離開房間的時候會出現變化。此外,當用戶(或虛擬用戶)聽著合成的音頻信號瀏覽真實世界(或虛擬)環境時,房間裡的各種門戶(如門、窗、屋頂)可能動態地打開和/或關閉。房間的建築或場景構成中的每一個變化都會對房間裡的聲波在任何給定瞬間的實時模擬方式產生重大影響。

圖源:蘋果

這樣一來,就需要改進虛擬三維環境的實時物理精確聽覺化技術。這包括其中任何(或全部)的環境:聲源、聲音接收器和虛擬環境中的幾何/表面可能在聲源被模擬時產生的動態變化。這種技術也可應用於增強現實(AR)場景,例如,將額外的聲音信息添加到聽眾的現實環境中,以準確模擬聽眾現實環境中不存在的 「虛擬」聲源對象。

所以當用戶不論走到虛擬空間中的哪個位置,都能聽到實時處理的遍布於空間內擬真的聲音效果,這些聲音會根據空間內的物體位置、甚至材質,以及實時移動的人產生變化,從而使其更真實。

不過據了解,該技術當空間中物體複雜、人很多的時候,其需要處理的聲音射線也將程指數級增長,從而對性能產生一定的負載。

但是,基於該技術,未來在虛擬環境中也能夠獲得更為真實的聲音效果。當然與之相對應的,可能未來虛擬場景內的三維物體不僅需要定義光學的反射材質,同時還需要定義聲學的材質,如桌子、牆面、窗簾都需要逐一設定。

結語

由於篇幅有限,本文暫時只介紹硬體中的幾個較為顯性的技術部分,後續將針對場景和生態進一步解讀。

蘋果對Vision Pro的官方定義——一台革命性的空間計算設備,從技術上來看,蘋果在從視覺、聽覺、交互多方面來體現它的革命性。

*聲明:本文為VR陀螺原創,禁止一切形式轉載

文章來源: https://twgreatdaily.com/zh-sg/f4bcfeca41bff02fd992439feb31e982.html