微軟專利為AR/VR遠程會議提供「講話人」視覺指示器自動化系統

2023-12-15   映維網

原標題:微軟專利為AR/VR遠程會議提供「講話人」視覺指示器自動化系統

(映維網Nweon 2023年12月15日)遠程會議的發展正在促進元宇宙的普及。然而,當前在線會議應用使用元環境的其中一個主要問題是,會議參與者可能難以識別相關的用戶活動,例如正在講話的人員。當用戶介面安排包括2D和3D渲染的組合時,這個問題可能會加劇。

所述問題可能會導致效率低下,並導致計算設備和用戶之間的無效交互,特別是在通信會話期間。所以在名為「Automation of visual indicators for distinguishing active speakers of users displayed as three-dimensional representations」的專利申請中,微軟介紹了一種用於區分活躍說話者或顯示為三維表示用戶的視覺指示器自動化系統。

圖1A和1B舉例說明了一個UI轉換的例子。通信會話可由由若干台計算機11組成的系統100來管理,每台計算機11對應於若干用戶。每個用戶可以在用戶介面中顯示為2D圖像151,或者每個用戶可以在用戶介面中顯示為3D表示251。所述2D圖像151可以是由指向用戶的攝像頭生成的靜態圖像或視頻流。所述3D表示251可以是靜態模型或動態模型,並具有響應用戶輸入的實時運動。

系統可以為在通信會話中主動發言的第二區域131選擇用戶的個人效果圖。所述系統可以使用一個或多個閾值或標準來選擇要在指定給主動說話人的第二區域131內顯示的單個用戶。例如,當檢測到用戶從麥克風產生音頻信號時,系統可以在所述第二區域131內顯示用戶的呈現。

系統同時可以分析音頻信號以確定語音速率,或確定用戶是否在語音輸入中提供了閾值單詞數。如果用戶所說的語速或字數滿足一個或多個標準或超過一個或多個閾值,則系統可以在第二區域131內顯示用戶的Avatar呈現。對於具有不符合一個或多個標準或不超過一個或多個閾值的語音活動的用戶,系統不在第二區域中顯示其圖像131。

第二區域131同時可以具有可顯示的預定用戶限制。在實施例中,根據其活動對從事語音活動的用戶進行排名。例如,在通信會話中說話的用戶可以根據語音速率、音量、所選單詞或術語的使用等在說話者隊列中排名。可在第二區域131內顯示最高等級的說話者,直至預定的限制。一旦顯示的說話者的輸入不符合標準,則可以刪除活動說話者的圖像。

系統可以將監視活動限制為在3D環境中顯示為3D表示251的用戶的音頻流。這允許系統只對特定用戶的流運行語音分析。在圖1A的示例中,這包括第一用戶、第二用戶和第三用戶的音頻流。系統可以確定其中一個音頻流是否符合標準。

例如,如果由3D表示物251A表示的第一用戶10A開始以閾值速率和或閾值音量說話,則系統可以確定第一用戶是在3D環境中顯示具有3D表示物的用戶的主動說話者。

為了確定具有顯示在3D環境中的3D表示的用戶具有滿足一個或多個標準的語音輸入,系統執行從圖1A的第一用戶介面安排101A到圖1B的第二用戶介面安排101B的轉換。如圖所示,在過渡中,系統在第二用戶介面安排101B中添加了主動說話人的圖像或表示的第二呈現。

在一個實施例中,在為主動說話者保留的第二區域131內顯示主動說話者的第二圖像。繼續上述示例,當顯示為第一3D表示251A的第一用戶10A提供滿足一個或多個標準的語音輸入時,如圖1B所示,系統顯示第一用戶10A的2D圖像151A的第二呈現。

在本例中,第一用戶的2D圖像包括由與第一用戶10A相關聯的第一計算設備的攝像頭生成的視頻流。第一用戶10A的2D圖像151A位於為有源說話者保留的第二區域131內。在所述實施例中,為主動說話者保留的第二區域131採用網格格式,其中網格的每個部分顯示參與者的視頻效果圖。

所述第二用戶介面布置101B還配置有所述第一用戶10A的2D圖像151A,使得其與所述第一用戶10A的3D表示251A的呈現同時顯示。在一個實施例中,可以維持第一用戶10A的3D表示251A的呈現,使得第一顯示區域130在整個過渡過程中顯示3D環境200的相同視角。

可以基於一個或多個因素去除圖像或主動說話者的表示形式的第二呈現。在一個實施例中,所述補充圖像可以顯示預定的時間段。在預定的時間段之後,可以移除所述補充圖像,例如所述第一用戶10A的2D圖像151A,並將其替換為說話者隊列中的另一活動說話者。

在一個實施例中,可以顯示補充圖像,直到不再滿足語音輸入的一個或多個標準。例如,如果語音輸入的一個或多個標準包括語音速率,並且作為對滿足或超過該語音速率的語音輸入的響應,在第二區域131內顯示提該語音輸入的用戶的第二圖像,則一旦用戶停止說話一段預定的時間,系統可以刪除用戶的第二圖像。

在另一示例中,如果在第二區域131內顯示提供語音輸入的用戶的第二圖像,例如圖1B中的圖像151A,則一旦用戶停止說話或其語音輸入不再滿足一個或多個標準,則系統可以刪除用戶的第二圖像。

系統可以根據其他因素刪除用戶的第二圖像。例如,如果其他用戶說話的音量比顯示在第二個區域的用戶大,則其他用戶的圖像可以取代該用戶的第二個圖像。

圖2A-2B說明了在接收到觸發輸入時發生的另一用戶介面轉換示例。觸發輸入可以包括滿足本文所述的一個或多個標準的任何類型的語音輸入。觸發輸入可以包括任何類型的用戶輸入,例如手勢。

本實施例與上述實施例類似,第一用戶10A提供語音輸入或另一限定輸入,並且作為對輸入的響應,在為主動說話者保留的第二區域131內顯示用戶的第二圖像。在圖2A的示例中,為主動說話者保留的第二區域131與溢出隊列關聯定位。溢出隊列是UI的一個區域,並用於顯示不合格用戶的渲染圖。

當網格渲染的說話者隊列達到最大用戶限制時,可以生成溢出隊列/補充隊列。例如,如果UI的網格部分的說話者隊列限制為3個用戶,並且有4個活動說話者,則系統將在圖像網格中顯示排名前三的用戶,並在溢出隊列中顯示排名第四的說話者。

如圖2A所示,第一用戶介面布置201A顯示了在3D環境的呈現中顯示的第一用戶10A的3D表示的呈現。當第一用戶10A開始提供語音輸入或任何其他合格輸入,例如,控制3D表示以提供用戶正在說話的外觀的輸入時,系統隨後在第二區域131內顯示該用戶的補充圖像151A,如圖2B所示。

圖3A-3B說明了當接收到觸發輸入時發生的另一用戶介面轉換示例。本實施例與上述實施例類似,第一用戶10A提供觸發輸入,並且作為對觸發輸入的響應,在為主動說話者保留的第二區域131內顯示該用戶的第二圖像。

在所述實施例中,為主動說話者保留的第二區域131定位並布置為至少部分地與所述3D環境200的3D渲染重疊。換句話說,在本實施例中,保留用於呈現位於3D環境200內的用戶的3D表示的第一區域130和第二區域131至少部分重疊。

如圖3A所示,第一用戶介面布置301A顯示了在3D環境的渲染中顯示的第一用戶10A的3D表示的渲染。當第一用戶10A開始提供語音輸入或控制3D表示以呈現用戶正在說話的外觀的任何其他輸入時,如圖3B所示,系統隨後在第二UI布置301B中顯示該用戶在第二區域131內的補充圖像151A。

圖4A和4B說明了可以控制用戶介面轉換的系統。用戶介面轉換可以由一個因素控制,例如3D環境的3D渲染的大小200。在更可能需要轉換的情況下,可以利用這個控制來保存計算資源。例如,如果3D環境200的3D呈現在用戶介面內相對較小,則系統可以引起本文所述的過渡,以幫助用戶識別3D環境中的活動說話者。在3D環境的呈現相對較小並且用戶難以看到3D Avatar 251的實際運動的場景中,可能需要顯示活動說話者的通知。

在一個實施例中,如果3D環境200的呈現具有小於閾值維度的一個或多個維度,則系統可以設置許可以允許本文所述的轉換。示例如圖4A所示,其中所述3D環境200的渲染至少有一個維度小於閾值大小或閾值維度。

但如圖4B的示例所示,所述3D環境200的渲染至少有一個維度大於閾值大小或閾值維度。當檢測到這個條件時,系統可以設置權限以拒絕本文所述的UI轉換,例如,系統可以限制位於3D環境中具有3D表示的活動說話者的圖形通知的顯示。這允許系統通過限制用戶介面轉換來保存資源。

圖5示出UI效果圖的附加技術細節。當接收用於引起本文所述的UI過渡的輸入時,系統可以確定用於控制用於主動說話者的3D表示的觀看視角的虛擬攝像頭350的位置和方向。例如,在圖1A所示的示例中,當作為3D環境中的3D表現形式顯示的第一用戶10提供觸發輸入,例如滿足一個或多個標準的語音輸入時,系統可以修改虛擬攝像頭350的位置或方向,以便3D環境的呈現提供更直接的用戶3D表現形式的面部視圖。

如圖6A所示,在觸發輸入之前,考慮這樣一種場景,其中虛擬攝像頭350的位置和方向配置為使得用於第一用戶10A的3D表示251A遠離虛擬攝像頭。在這種情況下,第一個用戶10A的3D表示251A的觀看者可能無法看到用戶何時說話,因為他們無法看到基於攝像頭角度的面部姿態。

因此,作為對觸發輸入的響應,除了提供補充圖像151A外,所述系統同時可以修改所述虛擬攝像頭的位置和方向,使得所述3D環境的渲染為所述第一用戶顯示所述3D表示的面部。

這樣3D環境200的觀看者將能夠看到主動說話者的Avatar的臉。這種虛擬攝像頭的修改可以向觀眾提供進一步的通知。另外,虛擬攝像頭的方向或位置的移動可以響應於本文所述的任何觸發輸入而啟動。

相關專利:Microsoft Patent | Automation of visual indicators for distinguishing active speakers of users displayed as three-dimensional representations

名為「Automation of visual indicators for distinguishing active speakers of users displayed as three-dimensional representations」的微軟專利申請最初在2022年5月提交,並在日前由美國專利商標局公布。

需要注意的是,一般來說,美國專利申請接收審查後,自申請日或優先權日起18個月自動公布或根據申請人要求在申請日起18個月內進行公開。注意,專利申請公開不代表專利獲批。在專利申請後,美國專利商標局需要進行實際審查,時間可能在1年至3年不等。