新一代實時語音編碼標準即將發布,2G網絡也能開線上會議

2024-07-02     南方都市報

南都記者獲悉,由騰訊提議啟動、推進的新一代實時語音編碼行業標準AVS3P10進入公示階段,即將正式發布,該標準以騰訊首款神經網絡語音編解碼器Penguins為原型。應用該標準,今後在線上會議、語音通話等實時音頻場景,帶寬要求大幅降低。這也意味著用戶即使在電梯、地庫、隧道等網絡很差的環境,也能實現清晰流暢的語音通話。據悉,從2021年起,Penguins音頻編碼器已經在騰訊會議駕駛模式、弱網模式及QQ語音通話等場景中投入規模應用。

通常在有限的帶寬條件下,想要將聲音高質量傳遞到接收方,需要壓縮原始數據、去除冗餘信息的語音編碼技術。然而,目前基於EVS、OPUS等主流音頻編解碼的標準仍存在一大問題,即當碼率降低到10kbps以下時,語音質量下降明顯,這將影響用戶通話體驗。

為應對該難題,騰訊會議天籟實驗室聯合騰訊AI Lab自研了騰訊首款神經網絡語音編解碼器——Penguins。據介紹,Penguins將AI與傳統技術緊密融合,從算法研究、工程化、產品化層面做了系統性創新。

而以騰訊首款神經網絡語音編解碼器Penguins為原型的AVS3P10標準,實現了6kbps下的高質量語音通信,即使在「2G」網絡下也能實現清晰通話,且主觀質量非常接近原始參考信號。同時,主觀質量對標傳統編碼的中高碼率情況下,編碼效率提升200-300%。

據悉,2021年起,Penguins音頻編碼器就在騰訊會議的駕駛模式、弱網模式及QQ語音通話等場景中投入規模應用,支持了億級用戶的流暢溝通。2023年3月,騰訊團隊在AVS音頻組主動提議啟動實時語音編碼項目,促進行業的技術進步。2023年6月,AVS工作組會議上,決定立項AVS3P10實時語音編碼項目;來自騰訊會議天籟實驗室的肖瑋負責推進和維護。隨後,騰訊提交基於Penguins的候選技術;經過AVS音頻組交叉驗證後採納。2024年6月,AVS3P10實時語音編碼標準正式完成標準化工作,進入公示階段。

談及Penguins音頻編碼器成為行業標準後,騰訊本身如何推進商業化的問題,騰訊標準化高級工程師張亞軍在接受媒體群訪時表示,新一代語音編碼推出之後,隨著音視頻編解碼技術的疊代,勢必會有新的技術替代原有技術。在互通互聯方面,也會涉及到產業鏈上的企業,比如晶片廠商、終端廠商,包括RTC,網際網路APP廠商,一起討論達成共識,最後才有標準發布。

「我們致力於通過此項標準擴大並推動整個行業的持續發展,實際上是與產業夥伴們共同成長、協作,共享市場帶來的豐碩成果。」張亞軍說,對部分合作夥伴來說,如果投入產出成本過高,也可以通過合作方式加速推動產品上市,從而推動整個行業加速實現AVS3P10標準應用起來。

采寫:南都記者 林文琪

文章來源: https://twgreatdaily.com/eceee3b293d330437505701f9cab428f.html