重磅!「國獎」放榜:十年來AI 領域首個國獎一等獎花落科大訊飛

2024-06-25     智東西

智東西

作者 | 三北

編輯 | 漠影

智東西6月25日報道,6月24日上午,一場科技盛會在北京召開。

全國科技大會、國家科學技術獎勵大會、兩院院士大會首次共同舉行,總書記為最高科學技術獎獲得者等頒獎。

同時,國家自然科學獎、國家技術發明獎、國家科學技術進步獎等獎項重磅揭榜。

在獲獎名單中,我們看到華為、科大訊飛、阿里雲、小米等科技公司出現,而科大訊飛作為第一完成單位的「多語種智能語音關鍵技術及產業化」項目,更是斬獲國家科學技術進步獎一等獎

這是深度學習引發全球人工智慧浪潮以來,過去十年人工智慧領域首個國家科學技術進步獎一等獎

據悉,這一集合了多語種語音識別、多語種語音合成、多語種翻譯技術等為一體的綜合技術,解決覆蓋69個語種的跨文化交流難題。

當下正值大模型掀起新一波革命,OpenAI推出的GPT-4o爆火全球,一大原因是「語音+大模型」的全新震撼交互體驗。

這一次的「國獎」,則讓我們看到了中國AI的隱藏實力和「語音+大模型」的廣闊前景。

一、史上最卷科技「國獎」,神仙打架

6月24日,2023年度國家科學技術獎揭榜,被央視網、人民網等主流媒體輪番報道,占據各大科技媒體的頭版頭條。

五大科技獎項揭榜結果大致如下:

國家最高科學技術獎2人:分別授予武漢大學李德仁院士、清華大學薛其坤院士;

國家自然科學獎49項:一等獎1項,二等獎48項;

國家技術發明獎62項:一等獎8項,二等獎54項;

國家科學技術進步獎139項:特等獎3項,一等獎16項,二等獎120項;

中華人民共和國國際科學技術合作獎:10人。

本屆國獎被稱為史上最難、最嚴格的一屆評獎。

一是因為從2017年開始至今,國家科學技術獎勵數度改革,強調科技獎勵工作要堅持國家戰略導向,並與國家重大戰略需求和中長期科技發展規劃緊密結合。改革之後,提名制和寧缺毋濫是兩個重要原則:提名制,壓實了提名者對材料把關的責任,加強了對候選者的審核和誠信審核;寧缺毋濫,讓獎項評審更加嚴格,比如說2020年度國家科學技術進步獎計算機與自動控制組的一等獎就是空缺的。

二是,因2021年、2022年國家科技獎暫停,大量優秀成果累積,競爭極其激烈。2023年受理的通用項目總數為1261項,僅243項通過初評,最終僅28項最終獲得特等獎、一等獎,約占2%。

國家科學技術進步獎更是競爭者眾。由垂直專業新媒體「科獎圈」於今年2月的統計可知,2023年科技進步獎共28個分組、709個項目。聚焦信息領域,主要有計算機與自動控制組(45項)、電子與科學儀器組(28項)、網絡與通信組(13項)三個組。

由公開信息可知,在信息領域,華為陳海波牽頭的「鴻蒙智能終端作業系統基座與產業應用」、百度王海峰牽頭的「產業級深度學習開源開放平台」、曙光歷軍牽頭的「國產先進計算系統關鍵技術及應用」也都在初期提名之列。

可謂「神仙打架」。

不過,從最終結果來看,只有科大訊飛牽頭的「多語種智能語音關鍵技術及產業化」項目戰到最後,並獲得了國家科學技術進步獎一等獎。

這是深度學習引發新一代人工智慧浪潮以來,過去十年人工智慧領域首個國家科學技術進步獎一等獎。科大訊飛也是19項國家科學技術進步獎特等獎、一等獎中唯一作為牽頭單位獲獎的民營企業。

二、多語種智能語音及產業化,為何拔得頭籌

這是一個什麼樣的項目?

簡單來說,「多語種智能語音關鍵技術及產業化」,是集合了多語種語音識別、多語種語音合成、多語種翻譯技術等智能語音技術和產業化為一體的綜合項目。

目前,該技術支持69個語種,除了6個聯合國通用語種,包括漢語、英語、法語、西班牙語、俄語、阿拉伯語等,以及挪威語、丹麥語等63個小語種。同時,該項目還覆蓋了24種主要中國方言。

在堅持國家戰略導向的大背景下,國家科學技術進步獎的評選標準更系統:不僅要完成重大科學技術創新,還要實現科學技術成果轉化,創造顯著經濟效益。

語音是人類最自然便捷的溝通方式,是智能設備人機互動的關鍵入口,也是諸多敏感信息的重要載體,還是民族團結和國際合作的基礎。多語種智能語音技術對於支撐人機互動、人類語言互通及國家安全等需求具有重大戰略意義,具有十分廣闊的產業前景。尤其是在當前全球人工智慧發展迅猛的大背景下,多語種智能語音技術更是是當前國際科技競爭核心焦點之一。

但是,這項技術面臨著諸多技術難題,科大訊飛從四個創新點完成了技術的突破。

1、複雜語音信號解耦建模,破解「雞尾酒會」難題

要說語音識別的最突出難題是什麼?很多人知道「雞尾酒會」效應——遠場、噪聲、多人講話往往難以聽清。

對此,科大訊飛提出多通道語音信號時空分離建模方法,使人聲和噪聲精確分離;團隊還將多維度語音屬性分層解耦,簡單說就是把內容、韻律、音色以及語種等都抽出來,以便更準確地識別和傳達,從而破解「雞尾酒會」難題。

2、多語種共享建模,多語言識別測評超OpenAI

再來看看另一個「卡脖子」技術——小語種智能語音系統。在當前國際科技限制的情況下,小語種知識匱乏、訓練數據稀缺,是困擾小語種訓練的主要難題之一。

科大訊飛設計了全新的多語種通用音素體系和基本語言單元,實現多語種統一音素韻律體系的構建,又通過基於元學習的多語種預訓練和基於語族分組的多語種共享建模——通俗地說,就是將不同的小語種進行分類,找到同類語種的共同規律,進行分析建模和訓練——最終,顯著提升了小語種語音系統性能。

3、語音語義聯合建模,讀懂深層含義和專業知識

人們交流中常面臨溝通障礙,深層語義理解對人來說都是困難的,更別說對機器了。

科大訊飛提出語音語義互增強的魯棒口語理解技術,並提出多源知識增強的可信文本生成技術,有效提升語音交互、語音翻譯等複雜場景的語義理解準確率,同時拉高專有詞彙及領域知識引用的準確率。

4、國產異構硬體平台,建立國產化集群

面對算力「卡脖子」難題,科大訊飛也加速了國產異構硬體平台關鍵技術的突破。目前,科大訊飛已建成5個國產化集群,2023年與華為聯合建設首個萬卡全國產算力平台「飛星一號」,填補了國產超大模型訓練平台空白。

除了技術上的突破之外,在重要評審維度「產業化」上,科大訊飛圍繞多語種智能語音技術構建了自主可控的產業生態,開創引領了我國語音產業的產業鏈,助力中國製造出海;助力民族團結,促進全球語言互通和「一帶一路」建設;並且在進一步打造覆蓋全球的國際產業生態。

具體到大家都看得到的場景上:

中國現在是汽車出口第一大國,出口國外的智能汽車需要有外語的交互,由科大訊飛多語種智能技術而開發出來的車載智能化產品,就支持奇瑞、一汽、長安等車企超200萬套訂單出海;

出國旅遊,科大訊飛基於多語種技術開創了智能翻譯機的新品類,帶上一個翻譯機就像帶上一個會85種語言的AI翻譯官;

在會議、辦公等場景,訊飛聽見系列產品能夠實時記錄和翻譯會議錄音,目前服務遍及全球50多個國家和地區,支持了超過40萬場會議,科大訊飛還基於此研發出了普通用戶也能用的訊飛辦公本、訊飛錄音筆等產品。

2017年開始,科大訊飛承建智能語音國家新一代人工智慧開放創新平台,目前已聚集平台開發者數700.7萬,意思就是由700多萬人在調用多語種智能語音技術去開發自己的產品。

這就是技術帶來的生生不息的產業生態。

據了解,近三年來,「多語種智能語音關鍵技術及產業化」項目累計實現直接經濟效益 521.28 億元,並帶動由工信部和安徽省政府共建、以科大訊飛為核心的「中國聲谷」產業集聚發展。

不得不說,這麼多技術突破和產業發展,不是一朝一夕就能完成的,難怪有媒體說科大訊飛是「十年磨一劍」!

三、大模型時代,多語種智能語音技術能做什麼?

眾所周知,人工智慧又來到了新的大模型時代,那麼積累十年的多語種智能語音技術能做什麼?

尤其是今年5月,OpenAI推出的GPT-4o模型引爆科技圈。眾多業內專業人士認為,GPT-4o對萬物互聯時代語音浪潮的推動,類似於當年Siri對語音應用的推動。一夜之間,「語音+大模型」賽道受到各界高度關注。

科大訊飛多語種智能語音關鍵技術中的創新和大模型技術是相互補充、相互促進的。

語音屬性解耦、語音信號時空分離等技術突破,可以將語音信號經過編碼後輸入到大語言模型,顯著提升語音大模型的效果。

大模型技術可以在複雜語義理解、長文本建模能力上進一步提升語音識別、合成和翻譯的效果,同時基於其強大的語義理解、知識問答、多輪對話、多模態建模能力,也能進一步大幅提升智能語音技術的使用場景和應用價值。

今年1月30日,科大訊飛就基於上述技術融合路線發布了星火語音大模型,顯著超過了OpenAI的Whisper v3的語音大模型能力,Whisper v3的24個主要語種的平均識別率為82%,而星火語音大模型達到了90%。4月26日,科大訊飛又首發多情感超擬人合成和一句話聲音復刻能力,使機器具備更加豐富的超擬人情緒感知和表達。

可以預測,語音同傳、自動客服、輔學答疑、家庭醫生、虛擬員工、陪伴機器人、服務機器人……這些原有的應用都將被變革,科幻片《她(Her)》中的智能陪伴助理也將成為現實。

今年6月27日,訊飛星火V4.0發布也將公布最新的端到端落地成果,拭目以待。

結語:大國科技競賽正酣,AI新機遇到來

時隔兩年多,國家科技獎再次重磅頒發,引起了整個智能產業圈的強烈關注。

這是十年以來,AI領域項目首次獲得國家科技進步一等獎,表明了國家層面對AI產業在技術創新度、轉化程度、示範帶動作用等方面的蓋章認可。

當下大國科技競賽正酣,是新的挑戰,也是新的戰略機遇。

就像曾經的網際網路技術一樣,國產的AI技術不知不覺中已突破奇點,已百花齊放,而大模型技術及應用可能已在爆發前夜。

文章來源: https://twgreatdaily.com/zh/9243121ef7528aa838d9f1f5a928ba01.html