從Vision Pro一窺眼動追蹤交互的巨大潛力

2023-06-21     VR陀螺

原標題:從Vision Pro一窺眼動追蹤交互的巨大潛力

文/VR陀螺 萬里

Vision Pro發布後,有人評價這款產品是現有VR/AR、顯示、光學、人機互動技術的集大成者。雖然裡面罕見新技術以及新場景,但它把原有的XR體驗提升至了一個新的高度。

以交互為例,以往手柄是頭顯的標配,有部分廠商還進行了手勢識別的探索,而Vision Pro帶來的解決方案是「眼動追蹤+手勢+語音」。蘋果把常見的眼動追蹤技術融入進了核心交互中,並為我們呈現了最為自然的體驗。

以眼動追蹤為核心,蘋果定義標杆級XR交互方式

眼動追蹤指的是測量注視點或眼睛相對頭部的運動過程,它並非前沿技術,其最早的研究甚至可以追溯到19世紀。

目前眼動追蹤技術包含了眼電圖EOG法、鞏膜搜索線圈法、眼睛影響捕獲、通過視網膜影像變化、圖像計算進行注視點追蹤、視網膜角膜反射法等技術路線,陀螺君了解到,瞳孔角膜反射法是目前的主流,也是一眾具有量產性的方案中最為可靠的一種。

此前VR陀螺文章《新一代XR頭顯標配,詳解眼動追蹤技術的價值和挑戰》對瞳孔角膜反射法已有相關介紹,簡單來說,該方案由眼動攝像機、光源和算法共同完成。光源發射紅外光在眼角膜反射形成閃爍點,眼動攝像機捕捉眼睛的高解析度圖像,再經由算法解析,實時定位閃爍點與瞳孔的位置,最後藉助模型估算出用戶的視線方向和落點。

眼動追蹤技術多應用於醫療健康、廣告、社科等領域,近年來,伴隨著VR/AR的發展,它在裡面開始發揮越來越重要的作用。如2015年,FOVE 0頭顯在Kickstarter展開眾籌,其核心賣點便是配備了眼動追蹤技術。FOVE指出,其眼動追蹤技術可用於控制遊戲角色移動、注視點渲染、醫療健康等。

FOVE 0,圖源:網絡

近年發布的PICO 4 Pro、Quest Pro、PS VR2等產品同樣配備了眼動追蹤技術。以Quest Pro為例,在眼動追蹤的加持下,Avatar可獲得更為豐富的眼神細節信息,此外,結合注視點渲染(ETFR)技術,最高可節約近52%的GPU性能。而PICO 4 Pro則把眼動追蹤與自動瞳距調節功能結合在了一起。

除前面提到的這些功能外,基於眼動追蹤的交互也是頗具潛力的應用場景之一。此前Meta Reality Labs的一份關於「手柄、頭動以及眼動交互」的一份研究指出,以90Hz運行的平均精度誤差低於1°的眼動追蹤系統(在無光標或其他反饋的條件下),它在易用性、採用率和疲勞度相較於頭部輸入(Head input )分別提高了66.4%、89.8%和116.1%,而相較於手柄輸入則分別降低了4.2%、8.9% 和 116.1%,不過它的失誤率是三者當中最高的。論文總結道,隨著互動設計的改進,眼動追蹤對於下一代AR/VR設備而言具有巨大的潛力。

實驗中出現的三種交互方式,圖源:Meta

微軟於2019年發布的HoloLens 2同樣支持眼動追蹤功能,其產品開發者文檔中提到了眼動追蹤交互的幾大優勢:

  • 使用起來毫不費力,幾乎沒有其他多餘的身體動作參與進來;
  • 交互具有私密性;
  • 眼部肌肉是人體反應速度最快的肌肉,可以實現快速指向。簡單做個類比,人眼單次掃視的時間為20-40毫秒,而使用滑鼠在玩槍戰遊戲時的反應時間約為250毫秒。
  • 可以分析用戶正在關注的對象,從而開發出更為智能的用戶介面。

陀螺君了解到,近年來XR眼動追蹤模組的價格已經進入了一個快速下探期。早期眼動追蹤在XR產品中滲透率低,整體價格比較高,如2019年亮相的Pico G2 4K眼球追蹤一體機,眼動追蹤上機成本約兩千元。如今眼動追蹤模組的BOM+License成本已經下探到了兩百多。

一方面是Vision Pro的激勵作用,另一方面是價格的下探,相信我們很快就能看到更多配備眼動追蹤技術的XR新品推出。

高規格硬體+算法積累,Vision Pro帶來高精度眼動體驗

在Vision Pro發布前,其預測消息已經滿天飛。以交互為例,有人認為是肌電手環+手勢,也有人認為是Siri+手勢等。而Vision Pro特別引入了眼動追蹤,會後在很多人看來這有一種意料之內而又大吃一驚的感覺。

一方面,用眼動做交互並不複雜,一位XR從業者告訴陀螺君,早些年他曾經做過一個類似的解決方案,即通過眼動進行選擇,然後用頭動(Head Tracking)進行數據修正再用按鍵點擊確認,他把這種交互稱之為多階交互法。

就在Vision Pro發布不久後,一個名為ThrillSeeker的YouTuber只花費了兩天時間,便在Quest Pro的基礎之上復刻了一套「手勢+眼動」的交互演示demo。他指出,雖然Quest Pro的眼動追蹤硬體精度稍差,但運行起來一切正常。

圖源:Youtube

而另外一方面,讓很多人「大吃一驚」的地方在於,Vision Pro完全捨棄了如今最為成熟的手柄方案,並激進地選擇了尚未成熟的眼動追蹤作為交互的核心。

以Quest Pro為例,在很多用戶看來,它的眼動追蹤只是一個「感知不強、徒增功耗」的小功能,並且Meta對它也不受待見。它在系統中處於默認關閉的狀態,用戶需要在設置欄中自行啟用。此外,它的應用場景嚴重缺失,能讓用戶明顯感知的唯二功能不過是Avatar照鏡子以及眼動錄入與校準的小動畫。

第三方應用程式方面,雖說也有主打眼動追蹤的應用,但它們以實驗探索性的demo居多。如SideQuest有一款眼動追蹤打字demo《Eye Tracking Keyboard》,陀螺君體驗發現,它在操作上比較科幻,但是經常會出現視線抖動以及對不準的情況,暫未清楚是硬體問題還是軟體問題。

圖源:VR陀螺

相反,Vision Pro的上手體驗媒體均對它的眼動追蹤交互給予了很高的評價:用戶的眼睛就像是PC端的滑鼠,眼睛注視圖標然後雙指捏合,即可打開新的應用;眼睛在菜單欄停留一段時間會自動彈出二級菜單.......很多人表示這簡直就是魔法。

從這些評價中不難發現,Vision Pro的眼動追蹤交互技術已經具有極高可用性以及易用性,而這是Vision Pro在硬體、算法、UI三方面同時發力的結果。

眼動儀器常見的指標主要有兩種,分別是準確度(Accuracy)和精確度(Precision),前者反映的是凝視位置與真實凝視位置之間的差異,後者則反映的是持續記錄同一個注視點時的離散程度。這些數據能直觀反映眼神標定究竟「準不準」。

前面提到的FOVE 0,其官方宣稱眼動追蹤準確度可以達到1°、HoloLens 2的準確度在1.5°左右,市面上某款在售XR眼動追蹤模組宣稱其準確度可以做到<0.5°。陀螺君測算,在正常使用電腦的情況下,大圖標的肉眼視角約為1.5°,單一文字的視角約為0.38°(僅供參考,不一定準確)。

目前Vision Pro並未公布其眼動追蹤模組的具體規格,不過據部分Vision Pro體驗用戶反饋稱,Vision Pro的眼動交互可以實現文本選擇複製粘貼等操作,從這方面來看它的準確度應該妥妥屬於XR第一梯隊。

圖源:微軟

此外,Vision Pro的眼動追蹤硬體也十分豪華,它左右眼分別配備了兩顆紅外攝像頭,相比之下Quest Pro以及PS VR2等產品僅配備了左右眼各一顆攝像頭。兩顆攝像頭加入,在保障追蹤精度的同時,還能用於測算雙眼瞳深,進而完善預畸變算法以實現更好的畫面顯示效果。

圖源:蘋果

微軟HoloLens 2軟體開發指南中曾提到,人眼視線的運動是不規則且跳躍的,並且速度很快。可能在用戶完成點擊動作之前,視線早已經飄走,因此將快速眼睛凝視信號與慢速的控制輸入結合起來需要格外小心。

在算法方面,蘋果已經有很多年的技術儲備。早在2017年,蘋果收購德國眼動追蹤技術開發商SensoMotoric Instruments(SMI),這是一家專注於該細分領域的頭部企業,已有30餘年的發展歷史。2017年,蘋果首次將眼動追蹤功能應用於其Face ID中,以提升解鎖的安全性。而近些年來,蘋果陸續有眼動追蹤相關專利申請流出,這為Vision Pro的交互奠定了良好的基礎。

蘋果前員工Sterling Crispin爆料稱,蘋果圍繞Vision Pro有一個專門研究神經技術的開發小組,而他所做的工作之一是通過AI預判用戶的操作行為。他提到,「你的瞳孔會在你點擊某物之前作出反應,部分原因在於用戶對接下來發生的事有所期望。因此,可以通過觀察用戶的眼睛行為並配合實時反饋的UI來增強用戶大腦的預測性瞳孔反應,從而創建生物反饋。」

AI算法的加入,也是Vision Pro的眼動交互備受好評的重要原因之一。

圖源:蘋果

降低手勢門檻,提升UI審美,「隱性」層面提升交互幸福感

除硬體以及算法外,人機互動設計也是蘋果的一貫強項。業內人士告訴陀螺君,「基於蘋果這套眼動追蹤硬體,開發者其實也能實現高精度的眼球操作,裡面的算法其實並不難,真正難的是蘋果所開發的這一整套交互邏輯。」

前面提到,Vision Pro配備的是以「眼動+手勢+語音」的多模態交互解決方案,這也是從產品底層出發推導的結果。

目前市面上已有不少基於眼動追蹤的單一交互解決方案,如掃視選擇凝視確認(如上面的鍵盤demo)、眨眼確認、雙重凝視(快速掃視兩次進行確認)等,不過這些方案總體而言都不符合自然的使用直覺,所以Vision Pro在此基礎上補充了手勢。

雙重凝視,圖源:ISMAR

而對於手勢而言,Vision Pro也進行了一系列優化。此前Quest 2、HoloLens等產品飽受詬病的地方在於其視覺盲區很大,使得用戶使用裸手交互時需要把手抬起來,使用過程中非常容易疲勞。而Vision Pro則配備了四顆用於手勢識別的攝像頭,可以檢測腰部以下的手勢,用戶甚至可以把手放在膝蓋上進行操作。也就是說,在這種情況下,蘋果保證了「眼動+手勢」不會成為其體驗的減分項。

在之前,UI設計並非頭顯「剛性」的需求,因為它並不影響功能的實現,不過,蘋果在這方面也花費了很大的功夫,以保證體驗的飽滿。WWDC 2023期間,蘋果圍繞Vision Pro的軟體開發帶來了一系列主題分享,其中《空間輸入設計》中介紹了有助於提升眼動追蹤體驗的設計規範:

  • 人眼會自然引導我們注意物體中間的形狀,基於此,可以使用圓形、圓角矩形、藥丸等形狀;
  • 避免使用帶有鋒利邊緣的形狀,因為後者會引導眼睛聚焦在外面;
  • 保持形狀平坦,粗糙輪廓會讓我們引起對邊緣的注意;
  • 使用大量填充使文本和字形保持居中;
  • 實現眼睛交互的元素最低保持60pt × 60pt;
  • 不同交互目標之間應該保持一定間距。

來源:蘋果

為了讓眼動追蹤交互能夠正常響應,視覺的反饋是必須的。蘋果在這方面同樣提供了底層級的支持。比如用戶視線掃過某個APP圖標時,它會出現相應的3D效果,當用戶查看菜單欄時,也會有相應的光流效果出現。

陀螺君了解到,在軟體開發時,開發者只需要設計圖標,並考慮好內容之間的分層結構關係,而光影、眼神反饋等效果則交由visionOS系統後台實時處理。這既降低了開發門檻,同時也保障了不同軟體之間的體驗一致性。

視線掃過時的細膩動畫效果,圖源:蘋果

最後再來談一談Vision Pro眼動追蹤所帶來的隱私問題,這也是產品發布會上所強調的重點之一。

眼動是一項非常隱私的數據,研究表明,一個人的目光數據可能暗含用戶的性別、年齡、種族、體重、性格特徵、情緒狀態、技能等各種敏感信息。

實際上,廣告心理學上也有一項名為視向心理測量的研究,即通過使用眼動儀來分析消費者注視廣告的時間、焦點、眼跳等來洞察其心理偏好。如果這些數據不加以保護,未來可能會出現更多更為準確的「猜你喜歡」廣告推送服務。(這也是Quest Pro發布時備受吐槽的一點)

Mike Rockwell透露,Vision Pro的解決方案是把眼動數據進行隔離並在後台進行單獨處理,蘋果稱只有當用戶進行雙指捏合操作時才會釋放結果,這樣就很好規避了APP和網站獲取隱私問題。

結語

單從Vision Pro的眼動追蹤的應用這一項便不難發現,這是一款細節滿滿的產品。以「眼動+手勢+語音」確立產品核心交互範式,通過硬體以及算法讓眼動追蹤交互提升至體驗的及格線,再從人機互動、UI設計、隱私保護等方面切入使得它的體驗達到了優秀水平。

毫無疑問Vision Pro會成為XR市場的新標杆,而它的這套互動設計或許也會成為各大廠商在未來競相學習以及追趕的對象。

參考資料

https://learn.microsoft.com/zh-cn/windows/mixed-reality/design/eye-gaze-interaction

https://developer.apple.com/videos/play/wwdc2023/10073/?time=271

https://www.yankodesign.com/2023/06/12/apple-vision-pro-for-999-an-engineer-built-the-vision-pros-eye-hand-tracking-interface-for-the-meta-quest-pro/

文章來源: https://twgreatdaily.com/zh/64be1c324f563e95f991359dc9391df0.html