華盛頓大學開源語音深度學習算法,可以在嘈雜的環境中鎖定某個說話者

2024-06-12     InfoQ

作者 | Sergio De Simone

譯者 | 明知山

策劃 | 丁曉昀

「目標語音聽力」是由華盛頓大學開發的一種新的深度學習算法,用戶可以 「註冊」(鎖定)一個說話者並消除周圍所有的環境噪音。

目前,這個系統要求佩戴耳機的人在盯著某人說話時點擊一個按鈕或看著對方三到五秒,這樣可以引導深度學習模型學習說話者的語音模式並鎖定它,這樣即便戴耳機的人開始四處走動並且不再看著說話的人,仍然可以聽到講話者的聲音。

一種樸素的做法是要求提供乾淨的語音示例來註冊目標說話者。然而,這與實際的應用不太一樣,因為在現實場景中獲取乾淨的示例極具挑戰性,這就帶來了一個獨特的用戶接口問題。我們提出了第一個註冊接口,佩戴者注視目標說話者幾秒鐘,以此來捕獲目標說話者單一、短暫、高噪聲的語音示例。

在註冊步驟中,最為關鍵的是佩戴者需要朝著說話者的方向看,這樣他們的聲音就會在麥克風上對齊,而其他干擾噪音可能不會對齊。這個語音示例用於訓練具有目標說話者特徵的神經網絡,並提取相應的嵌入向量。然後,將此向量與另一個神經網絡一起使用,從一堆說話者中提取目標語音。

研究人員表示,與現有的降噪耳機相比,這是一個重大進步,現有的降噪耳機可以有效地消除所有噪音,但不能根據其語音特徵有選擇性地選擇說話者。

為了實現這一點,團隊必須解決幾個問題,包括優化最先進的語音分離網絡 TFGridNet,使其可以在嵌入式 CPU 上實時運行,並找到一種訓練方法,使用合成數據構建一個能夠推廣到現實世界未見說話者的系統,等等。

「語義聽力」項目的研究員之一 Shyam Gollakota 強調,他們的項目與當前的 AI 方法有所不同,因為它旨在使用設備上的 AI 來改變人們的聽覺感知,而不依賴雲服務。

目前,系統一次只能註冊一個說話者。另一個限制是,只有當沒有其他來自同一方向的響亮的聲音時才會成功註冊。如果用戶對初始註冊結果不滿意,可以對著說話者再進行另一個註冊來提高清晰度。

該團隊已經開源了他們的代碼和數據集,用以促進未來的研究工作,改進目標語音聽力。

查看英文原文

https://www.infoq.com/news/2024/05/target-speech-hearing/

德國再次擁抱Linux:數萬系統從windows遷出,能否避開二十年前的「坑」?

蘋果有史以來最瘋狂的發布會!發布顛覆性個人智能系統Apple Intelligence,並徹底改革Siri

AI 「奸商」的崛起

限制中國人在美國搞 AI,美眾議院提案對AI產業帶來什麼影響?

文章來源: https://twgreatdaily.com/2e50db3a4c587066316ada32954c03bd.html