北京勞動者之歌——小米科技小米人工智慧實驗室語音組

2023-12-21     北京交通廣播

原標題:北京勞動者之歌——小米科技小米人工智慧實驗室語音組

2017年1月,小米人工智慧實驗室語音組成立。初期僅有4人,截至2022年底,團隊成員共98人,其中國內外博士20名,碩士75名。團隊成立僅4個月,就上線了小米第一代語音識別系統,還公開了一篇小米在電視語音交互中端到端語音識別的研究成果。該研究成果展示了截至當時中文端到端語音識別技術最好的識別率。

從此語音團隊一路披荊斬棘,除了小米電視,還成功把職能語音交互技術,應用到了小米手機,智能音箱系列。小米自研的語音引擎,不但速度快,識別率更是超越了微軟、Nuance等知名公司提供的引擎,公司決定全面使用自研語音識別技術。有了這個技術,公司的智能產品就像有了耳朵一樣,傾聽用戶的指令和訴說。

一、賦予世界最大的手機XAIoT平台耳朵和嘴巴

有了聽用戶語音的「耳朵」,團隊開始為小米智能設備打造說話的「嘴巴」—和用戶說話,即語音合成的算法能力。2017年的6月、團隊開始跟蹤最前沿的端到端語音合成技術。經過14個月反覆的論文研讀、試驗以及評測,團隊追平了國際最先進的語音合成技術水平。

有了在小米手機、音箱和電視上應用人工智慧聽說的能力之後,團隊全面把自研語音技術應用於小米手錶、耳機、平板電腦、手環、翻譯機、大家電、兒童機器人、機器狗等50多個品類的智能產品中。

二、為世界上最忙的語音助手打造全棧語音技術

2019年,小米把手機×AIoT提高到戰略高度,為了持續提升這個大生態上的語音交互體驗,公司引入了首席語音科學家Daniel Povey博士。他是全世界開發者使用最多的開源語音識別社區Kaldi的創始人,被業界成為「Kaldi之父」。博士加入小米後,團隊持續邀請了幾十位業內頂尖的語音算法專家和研發人員加入,一起在全世界最肥沃的語音技術業務土壤上耕耘。把以語音識別為代表的一系列算法擴展為語音理解技術;同時把以語音合成為代表的一系列結束擴展為語音生成技術。形成了一個包含12個技術方向的完整語音交互技術棧。

2021年小愛同學月活躍用戶數量過億,成為世界上最忙的語音助手之一。小米手機收到日均2億的語音識別請求,3億語音合成請求,日均通過遠場拾音觸發語音交互5200萬次,喚醒語音識別5500萬次,進行1.85億次聲紋識別。

三、奪冠,挑戰語音技術天花板

語音技術最早起源於歐美。隨著2011年移動網際網路時代的到來,華人語音的研究者和團隊逐漸踏入語音技術的聚光燈下,小米的語音團隊有幸成為其中的佼佼者。小米有世界上最大的智能設備生態網絡,這些網絡孕育了大量的人機語音交互需求。語音團隊滿足了這些真實的用戶需求,為包括手機、耳機、手錶、手環、筆記本電腦、大家電、機器人等5000多款智能產品提供聲學語音人機互動技術,還用他們不斷磨礪自己的人工智慧算法。從2017年至今,團隊研發的語音識別,聲音降噪,語音合成等18項人工智慧技術幾乎覆蓋了所有民生領域中的聲學語音應用,惠及包括障礙群體在內的4億多用戶。該團隊還不斷挑戰世界級的語音研究天花板,在該領域持續創新,研發出超級擬人、語音成分分析與重建、AI作曲和編曲等技術,回饋工業界和學術界。2021年,團隊負責人王育軍被聘請為國家知識產權局中國專利審查技術專家。37篇論文為國際頂級語音會議收錄。參加了語音技術領域內一系列挑戰賽,並獲得了6項國際聲學語音挑戰賽冠軍、兩項國內比賽比賽亞軍、兩項季軍。不僅證明在團隊在業務緊密相關的技術領域上領先世界,也為小米和中國智造行業贏得了榮譽。

四、初心,做有溫度的語音技術

小米一直致力於中國智能設備無障礙的建設。為了配合小米的無障礙體系,語音團隊為聽障人群開發了「聞聲技術」,不但可以讓設備幫聽障用戶「看到」其他人說話,也可以幫他們「看見」周圍環境中的聲音,例如警報聲,敲門聲等。讀屏技術為視障人群「看到」螢幕上的內容。語音合成技術,為失去語言能力的用戶發出聲音。「聆聽」技術為構音困難用戶提供了個性化的語音識別,讓他們也可以通過語音和設備交互,這項技術被提名為2021年世界網際網路領先科技成果。

點個

分享給身邊的朋友吧

文章來源: https://twgreatdaily.com/zh-my/fbddd1deb69b526e7de569a4c82ddc08.html











1.17億人次!

2024-08-23