(映維網Nweon 2023年12月22日)注視點渲染依賴於這樣一個事實:人類視覺系統只能在視網膜中央凹5-10度的焦點區域內看到清晰細節,而在10度以外的區域,細節感知能力會迅速下降到20%或更少。利用注視點渲染,XR頭顯可以大大減輕渲染計算負擔。
實際上,諸如微軟等廠商正在積極探索在渲染應用以外的其他領域,例如視頻流式傳輸。在名為「Gaze based video stream processing」的專利申請中,這家公司就介紹了一種基於眼睛注視位置的視頻流式傳輸。
在一個實施例中,計算系統可以利用注視估計系統來估計用戶的注視位置,從而允許處理器降低用戶未積極查看的視頻流的質量。
視頻流可以基於是否要在用戶的注視點區域內顯示而進行不同的處理。注視位置可由使用所述圖像傳感器的計算系統估計、檢測或以其他方式確定。
即,圖像傳感器可獲取一幅或多幅圖像,並基於所述一幅或多幅圖像估計注視位置。然後可以使用估計注視位置來處理要顯示給用戶的視頻流,例如降低在估計注視位置之外顯示的視頻流的圖像質量,增加在估計注視位置內顯示的視頻流的圖像質量等。
圖1描述的視頻處理系統100,配置為基於用戶的估計注視位置處理視頻流。視頻處理系統100包括計算設備110和顯示設備120。
計算設備110通常配置為接收多個視頻流並向顯示設備120提供視頻流的表示,以便顯示給用戶102。計算設備110的示例包括網絡伺服器、雲伺服器或其他合適的計算設備。
計算設備110可以包括處理視頻流以傳輸到顯示設備120的流處理器112。在各種實施例中,流處理器112配置為在傳輸到顯示設備120之前降低至少一個視頻流的傳輸比特率。計算設備110同時可以包括配置為識別用戶102的估計注視位置的注視檢測器114。注視探測器114配置為利用神經網絡模型,例如神經網絡模型162。
顯示設備120包括具有視場並能夠獲取用戶102的一個或多個圖像的圖像傳感器132,顯示設備120和/或計算設備110利用圖像傳感器132捕獲的圖像來識別用戶102的估計注視位置。
圖像傳感器132可以獲得用戶102的一個或多個圖像,其中用戶102位於圖像傳感器132的視場內。然後,可將由圖像傳感器132獲取的一個或多個圖像提供給在神經處理單元執行的神經網絡模型。
神經網絡模型可以確定並向流處理器112提供用戶102的注視信息,例如估計的注視位置。由於神經處理單元是專門設計和/或編程來處理神經網絡任務,所以其對資源的消耗比使用中央處理單元的消耗要少。
所述神經網絡模型確定並提供的注視信息可包括所述用戶102的估計注視位置。用戶的估計注視位置可以對應於顯示器130和/或周圍的位置,例如X、Y、Z坐標。
顯示處理器144配置為在一個或多個視頻流執行一種或多種圖像增強算法,例如,增加視頻流的空間解析度或幀速率的超解析度算法、稀疏重建算法、焦點解碼算法或其他合適的圖像增強算法。
換句話說,所述顯示處理器144配置為處理具有相對較低圖像質量的第一視頻流以生成具有相對較高圖像質量的第二視頻流。所述顯示處理器144可利用所述估計注視位置來選擇用於所述圖像增強算法的所述接收視頻流的子集,例如僅在所述估計注視位置內的視頻流。
以這種方式,計算設備140在用戶注視時提供高質量視頻流,但在用戶無法輕易辨別額外細節時提供低質量視頻流,這節省了用於其他活動的處理器周期。
神經網絡模型162配置為基於用戶的一個或多個圖像估計用戶的注視位置。可以訓練神經網絡模型162使用源圖像164來估計注視位置,並且訓練神經網絡模型162以識別相關區域。視頻數據166可以包括錄製的視頻、視頻流或可用於生成視頻流的數據。
圖2描述了視頻處理系統200的示例。視頻處理系統200包括計算設備210、用於第一用戶的第一顯示設備220、用於第二用戶的第二顯示設備230和用於第三用戶的第三顯示設備240。計算設備210通常對應於圖1中的計算設備110,並且包括流處理器212。計算設備210同時可以包括注視探測器214。
第一顯示設備220一般對應於圖1中的顯示設備120,包括注視探測器222和顯示處理器224。第一顯示設備220使用諸如圖像傳感器132的圖像傳感器捕獲第一視頻流226。另外,第一顯示設備220識別第一用戶的估計注視位置228。所述第一顯示設備220將所述第一視頻流226和所述估計注視位置228傳輸到所述計算設備210。
第二顯示設備230配置為顯示從計算設備210接收的視頻流,並使用合適的圖像傳感器捕獲第二視頻流236。例如,所述圖像傳感器可以類似於所述圖像傳感器132。
第三顯示設備240一般對應於圖1中的顯示設備120,並包括注視探測器244。第三顯示設備240使用諸如圖像傳感器132的圖像傳感器捕獲第三視頻流246。另外,第三顯示設備240識別第三用戶的估計注視位置248。第三顯示設備240將第三視頻流246和估計注視位置248傳輸到計算設備210。
流處理器212配置為在傳輸到第一顯示設備220之前降低第二視頻流236和第三視頻流246中的至少一個的傳輸比特率。通過降低傳輸比特率,計算設備210減少將合成視頻流250傳輸到第一顯示設備220所需的帶寬量。另外,在顯示復合視頻流時,較低的傳輸比特率同時提供了第一顯示設備220的更低功耗或更快的顯示幀率。
在各種實施例中,流處理器212通過減少像素計數、減少幀速率、改變調色板或色彩空間、改變視頻編碼格式、降低音頻質量或其任何組合來降低視頻流的傳輸比特率。作為一個示例,流處理器212通過從1920×1080像素重採樣到1280×720像素或通過裁剪到更小的尺寸來減少視頻流的像素計數或解析度。
作為另一個示例,流處理器212將幀速率從每秒60幀降低到每秒30幀或每秒24幀。在另一個示例中,流處理器212將視頻編碼格式更改為更有效的編碼格式,例如從H.262格式更改為H.264或H.265格式。
在一個實施例中,流處理器212通過解碼視頻流以獲得解碼的數據來執行上述處理,然後以不同的視頻編碼格式對解碼的數據進行編碼或改變視頻編碼格式的參數以降低傳輸比特率。在其他實施例中,流處理器212將視頻流轉碼為不同的視頻編碼格式(。
圖5描述了處理視頻流的方法500。
從步驟502開始,接收多個視頻流以傳輸到顯示設備。所述多個視頻流具有各自的初始圖像質量水平。所述多個視頻流對應於所述視頻流226、236和246,所述顯示設備對應於實施例中的第一顯示設備220。在另一實施例中,多個視頻流對應於視頻流360、370和380,顯示設備對應於顯示設備130。
在步驟504,識別顯示設備的用戶的估計注視位置。從顯示設備,例如從注視探測器142或222接收估計的注視位置。在其他實施例中,從顯示設備接收一個或多個圖像,從圖像中提取多個特徵,將多個特徵提供給神經網絡,並且將估計的注視位置確定為使用該神經網絡引導用戶注視的位置。
在步驟506,將多個視頻流中的至少一個視頻流處理為具有基於估計注視位置的修改的圖像質量水平。修改後的圖像質量級別小於相應的初始圖像質量級別。修改後的圖像質量級別具有減少的像素數、減少的幀速率和增加的壓縮中的至少一種。
在步驟506,基於顯示設備顯示的至少一個視頻流與估計注視位置之間的距離,從多個質量水平中選擇修改的圖像質量水平。
在步驟508,將多個視頻流傳輸到所述顯示設備。在一個實施例中,生成並傳輸到顯示設備的復合視頻流包括具有修改的圖像質量水平的至少一個處理過的視頻流和多個視頻流的剩餘視頻流。
圖6描述了用於處理視頻流的方法600。
從步驟602開始,接收多個視頻流以供顯示設備顯示。所述多個視頻流具有各自的初始圖像質量水平。初始圖像質量水平相對較低,例如降低視頻流的傳輸比特率。
在步驟604,識別顯示設備的用戶的估計注視位置。在一個實施例中,估計注視位置對應於估計注視位置。在一個實施例中,估計的注視位置由顯示設備的注視檢測器確定,例如由注視檢測器142或222確定,並提供給顯示處理器144。
在步驟606,將多個視頻流中的至少一個視頻流處理為具有基於估計注視位置的修改的圖像質量水平。修改後的圖像質量級別高於相應的初始圖像質量級別。修改後的圖像質量級別具有增加的像素數、增加的幀速率和減少的壓縮中的至少一種。
在一個實施例中,顯示處理器144在至少一個視頻流執行一種或多種圖像增強算法,例如增加視頻流的空間解析度或幀速率的超解析度算法、稀疏重建算法、焦點解碼算法或其他合適的圖像增強算法。
在一個實施例中,顯示處理器144選擇在估計注視位置內的視頻流,並僅對選定的視頻流執行圖像增強算法。
在步驟608中,多個視頻流由顯示設備顯示。
相關專利:Microsoft Patent | Gaze based video stream processing
名為「Gaze based video stream processing」的微軟專利申請最初在2023年8月提交,並在日前由美國專利商標局公布。
需要注意的是,一般來說,美國專利申請接收審查後,自申請日或優先權日起18個月自動公布或根據申請人要求在申請日起18個月內進行公開。注意,專利申請公開不代表專利獲批。在專利申請後,美國專利商標局需要進行實際審查,時間可能在1年至3年不等。