專訪訊飛劉聰:數十年磨一劍,大模型如降龍十八掌中的終極一掌

2023-12-21     DeepTech深科技

原標題:專訪訊飛劉聰:數十年磨一劍,大模型如降龍十八掌中的終極一掌

隨著大模型時代的到來,許多新興公司正忙於貼上各種標籤來彰顯自己的特色。對一家老牌 AI 公司而言,一件更重要的事情,是如何整合過去的經驗和資源再次出發。

比如說科大訊飛。大模型時代之前,這家成立於 1999 年的公司,是國內智能語音龍頭,在自然語言理解、計算機視覺等核心 AI 技術上也有深厚積累。要觀察國內 AI 產業發展,訊飛是必不可少的樣本。

大模型時代以 2023 年為元年,國內就有超過 180 個大模型橫空出世。訊飛在今年 5 月推出自研的訊飛星火認知大模型。

科大訊飛研究院院長劉聰及其團隊承擔著星火大模型的技術挑戰。對於劉聰而言,大模型並非一個全新的存在。

他用降龍十八掌來比喻這一點:電影《武狀元蘇乞兒》中,蘇乞兒在與對手打完十七掌之後,苦苦思索這最後一掌是什麼。其實,最後一掌就是集此前大成,將之前的十七掌組合起來、一招打出。

換句話說,大模型與深度學習、認知智能之間有著非常緊密的關係,數據、算法、算力、知識幾股合力共同作用到一個新的發力點上,大模型成了那個集大成者。

深度學習的黃金期並非一蹴而就,大模型無疑是當下的亮點代表。到了大模型時代,訊飛是如何打出這最後一掌的?本文基於 DeepTech 與劉聰的獨家採訪,希望能得到更多線索。

圖|劉聰,科大訊飛副總裁、研究院院長,語音及語言信息處理國家工程研究中心副主任

智能湧現:GPT 帶來的最大啟示

AI 平台型公司每一年都會舉辦開發者日,以集中展示一整年的技術進展。

今年 10 月 24 日的科大訊飛 1024 開發者節比往年更特別一些。這是他們發布星火大模型以來的第一個開發者節。

自今年 5 月 6 日到 10 月,訊飛開放平台湧進了 143 萬開發者,同比增幅達到了 331%,開發者團隊總數達到 550 多萬。

一部分湧入的開發者在當天親身見證了訊飛制定的一個大模型領域的「小目標」:在 2024 年上半年,訊飛星火 4.0 將全面對標 GPT-4。要實現以上目標,最大的壓力落在劉聰和他帶領的訊飛研究院團隊身上。自 2005 年成立起,訊飛研究院負責公司所有的 AI 核心技術研發,全面支撐訊飛各個業務,涉及 30 多個產業方向。現在,星火大模型成了最關鍵的那一個。

作為一名從智能語音跨界到計算機視覺、並再度進入大模型所在 NLP 領域的 AI 老兵,劉聰一直在關注著人工智慧領域最前沿的動作。2022 年末,ChatGPT 開啟公測的第一周,他協同幾位認知智能專家搭建了一個臨時調研小組,去探究 ChatGPT 的實力。

他們首先注意到的是 GPT 表現出的智能湧現。

這是一種 AI 研究者無法忽略、但迄今也無法完美解釋的現象,即當語言模型的規模超過一定量級參數時,它將展現出前所未有的新能力。

甚至不需要學術評測,只要用過的人都會直觀地感受到,GPT 此時在多個任務上的輸出質量,已經穩定地碾壓此前的 AI。

對於崛起於智能語音技術、同時也深耕行業認知智能多年的訊飛而言,幾乎是毫無疑問,新的天花板出現了,大模型可以超越以往智能對話系統的範疇,也意味著擴展到更為智能、靈活的應用場景。

不過,僅僅回答能不能出掌還不夠,更重要的是,大模型這一掌非打不可嗎?

巨大的投入是第一個可預見的門檻。根據美國媒體 The Information 的報道,由於「昂貴的伺服器」,ChatGPT 每天的花費就高達 70 萬美元,每個月的成本則在百萬美元以上。

劉聰認為,做大模型這件事情,則符合訊飛一貫堅持的理念——用源頭技術創新,以系統性創新解決重大社會剛需。

「我們的布局也源於對業界最核心技術的跟進,從 2017 年 transformer 技術十分熱門之後,我們持續跟進了 GPT 和 BERT 的技術疊代發展路線,也做出了一系列中文的開源模型。同時,我們也很關注實際應用場景對自然語言理解技術的需求是什麼,例如汽車、智能硬體等領域的對話交互,以及教育、醫療、司法、工業場景中的知識問答,相關技術在這些場景中也陸續取得了一定的應用成效。」

GPT-3 問世後,訊飛研究院也客觀評估了其效果:儘管在生成任務上效果相對較好,但在一些判別式任務中則效果一般,某些場景下此前較小的模型也能實現並應用。但 ChatGPT(即 GPT-3.5)讓劉聰和團隊眼前一亮:

「ChatGPT 效果很驚艷,通用任務的覆蓋、多輪交互的能力、小樣本學習任務等方面都表現不俗。最重要的是,它的通用效果非常顯著,比如說在醫療等專業領域和垂直的模型效果相當」。劉聰形容道, ChatGPT 的效果打開了認知智能的天花板,而「智能湧現」的 AGI 曙光正從中照進來。

很快,這種驚艷的效果也傳播到了 AI 從業者外,社會各界對於 ChatGPT 的討論也越來越多,有顛覆派,也有聲音認為它依舊沒有脫離「一本正經地胡說八道」。

劉聰是訊飛中堅定的支持派。他的「觸角」很多,對 ChatGPT 的多渠道信息來源,讓他愈發篤定 ChatGPT 很可能是顛覆性的。

而且,從訊飛的積累來看,從語音、語言到多模態再到以大模型為雛形的AGI,訊飛去實現這種智能湧現,雖不是一日建成的羅馬城,但也不是需要從 0 到 1 的新長征。

拆解大模型這一概念,它依然深深植根於深度學習的範疇。

圖|大模型概念拆解

深度學習的核心是構建多層次的神經網絡,通過這些層次進行特徵的提取和數據的抽象,從而實現對複雜問題的建模。

大模型可以視作深度學習理論在實際任務中的應用,其本質還是龐大而複雜的深度神經網絡。這些模型包含大量的參數和層次,能夠更好地捕捉數據的特徵,實現對龐大數據集的學習和理解。隨著深度學習算法的改進和訓練方法的優化,大模型的性能得到了顯著提升。因此,大模型可以看作是深度學習理論的實踐體現。

簡而言之,在上一波深度學習浪潮中走過來的企業,具有天然的基因去做這件事。當然,這需要超前的眼光。業內也有說法,將這一次中國本土大型模型的興起一直往前追溯到上一波深度學習熱潮,那時國內科研機構和企業開始成規模地積極投入深度學習和自然語言處理領域。

大模型背後關鍵的深度學習和自然語言理解技術,訊飛早在很久之前已有布局。2006 年左右深度學習提出後,訊飛即著手研究,並於 2011 年推出首個深度學習語音識別商業系統;同年,訊飛也開啟了語義理解相關研究,還推出了類 Siri 的產品訊飛語點,此後基於承建的語音和語言信息處理國家工程研究中心、認知智能全國重點實驗室持續開展認知智能技術研發,除了在多項國際賽事中收穫冠軍,也在教育、醫療、司法等多個領域實現落地應用成效。

圖|深度學習曾入選「十大突破性技術」(TR10)

放在訊飛身上,大模型不僅僅是一個龐大的存在,更是一個可以切入的實體,是降龍十八掌的最後一掌。

這也是為什麼劉聰認為,對訊飛而言,大模型雖然新,但並非陌生物種, ChatGPT 雖然驚艷,但並非不可追趕。

明晰的大模型進階目標,如何實現?

追趕正式摁下加速鍵,是在去年的 12 月 15 日。

這個日期之前,劉聰和團隊迅速進行了相關的技術和研發體系的驗證。想要正式邁出這一步,以下兩點必不可少:即具備建制完整的研究團隊和關鍵技術上的積累。

團隊部分,以數據來看,訊飛研究院有 1500+人,完整覆蓋自然語言處理、智能語音、計算機視覺等技術方向。此外在研發投入上,財報顯示,訊飛 2021 年研發投入 29.36 億元,2022 年增長至 33.55 億元,同比增長 14.28%。

第二點即「降龍十八掌」的前十七掌,正如上文所述。2022 年 12 月 15 日星火大模型研發的推進會正式召開,第一次推進會就拉通了科大訊飛核心研發平台的各方向團隊,完整地覆蓋了大模型的研發、部署和優化等。

不止訊飛這一家,國內其他在深度學習技術上進行了大量投入的網際網路公司和 AI 公司,也開始有所動作,大模型賽跑已然槍響。

對於訊飛要做自己的大模型,不同的聲音不斷襲來。「不同群體的人有不同的理解。學界、業界熟悉訊飛的朋友知道大模型是訊飛過去這些年相關技術厚積薄發的最好機會。不熟悉訊飛的朋友,或者對大模型與深度學習、自然語言理解關係了解不多的朋友可能會認為,此前訊飛在大模型發聲不多,所以不是自己做出來的」,劉聰說。

也有人猜測認為,訊飛在做「套殼」大模型。這個說法在 5 月 6 日的發布日當天不攻自破。、

圖|5 月 6 日訊飛星火發布會現場

「發布會之後,我們的大模型在業內綜合效果可以說數一數二,而且在發布會上全程是真機實測演示。」劉聰說。

此後,訊飛星火大模型能力升級按下加速鍵。6 月 9 日突破開放式問答、多輪對話能力再升級、數學能力再升級;8 月 15 日突破代碼能力,多模態交互再升級;10 月 24 日實現通用模型對標 ChatGPT,中文超越、英文相當。

劉聰也分享道,這些目標的完成,很快地經過了一次市場檢驗:數據顯示,2023 年雙十一,C 端硬體產品中,訊飛硬體銷售額同比增長 126%。此外,根據 1024 公布的數據,訊飛星火 1200w+ 用戶,訊飛星火加持下訊飛開放平台的開發者團隊總數達到 550 多萬家,與大模型直接相關的企業級用戶超過 10 萬家;訊飛星火上有 1.5 萬助手開發者開發了 2.9 萬應用……訊飛將今年的硬體銷售額、開發者團隊、企業用戶增長,歸功於訊飛星火認知大模型能力的加持。

而且,訊飛這種對大模型疊代的明確性不僅體現在時間上,也體現在空間上——星火認知大模型的「1+N」路線。

訊飛的通用大模型為什麼要 1+N?

「1+N」這個代號其實非常直接:「1」就是通用的認知智能的大模型,「N」就是把這個大模型在各個領域的落地,包括教育、辦公、汽車、人機互動以及醫療等。

當然,數據、算法、算力——深度學習的三座大山,同樣橫亘在大模型面前。劉聰認為,大模型時代也賦予了它們全新意義:大模型、大數據、大算力,相關的挑戰也來自於此。

訊飛團隊上擁有關鍵算法創新的兩個核心策源地——認知智能全國重點實驗室、語音及語言信息處理國家工程研究中心,都在算法層面為訊飛星火認知大模型打下了堅實基礎。

數據上,大模型對數據的「質」與「量」有更高的依賴,例如大模型的海量知識記憶能力,同時各個場景數據的有效利用,能夠幫助大模型實現智能湧現。在嚴格遵守適用法律法規前提下,訊飛已經在多年認知智能系統研發推廣中積累了教育、醫療以及訊飛開放平台上的海量行業語料和每天超 10 億人次用戶交互的活躍應用,為基於大模型的創新應用研發和試點推廣提供了場景保障。

劉聰認為,認知智能大模型的智能湧現受到數據漣漪效應的推動和加速。目前,認知智能的數據標註工程從勞動密集型向知識密集型轉變,源源不斷的增量知識數據為大模型智能湧現打下堅實基礎。

在各行業之間的差異化存在阻礙 AI 方案順暢運行的背景下,對相關行業數據的深度挖掘和利用,最終反哺於「深度學習」的針對性進化,已逐步成為行業共識。

算力上,訊飛根據大模型訓練和服務的技術挑戰與需求,重新設計打造了大模型專用的一體化平台來支持混合異構算力調度,打通訓練推理資源數據閉環。

在此基礎上,訊飛確立了「1+3+1」的技術創新體系,去支撐訊飛星火認知大模型的持續進步:

第一個「1」是自主研發的安全可控大模型訓練基座,「3」為高質量海量數據構建、多語種多任務統一建模、基於用戶對話數據的強化學習。第二個「1」是指軟硬一體化的高性能大模型推理平台。在算力硬體上,訊飛與華為等合作夥伴也展開了深入的合作。

劉聰也認為,訊飛大模型區別於其他大模型的一大特點,還在於它將以 1+N 的方式協同推動,在多個場景率先帶來示範性應用(2B2C),和合作夥伴共建行業大模型。

他沒有從通用和垂直大模型對立的角度去解釋訊飛的路徑選擇,而是從認知智能發展的角度來理解:

訊飛星火認知大模型為「1+N」體系,「1」是通用認知智能大模型,「N」是大模型在教育、辦公、汽車、人機互動等各個領域的落地。二者並進,「N」的數據和場景可以更新到「1」里、促進通用大模型的能力疊代提升;「1」的能力也能快速疊代融入到「N」的產品應用中去,更快速的落地,以及 1 底座提升後持續給 N 帶來的提升,由此形成了一種持續的正向反饋循環。

「1+N 的方式比單獨做一個 ChatGPT 模型更加複雜。多個方向的重組及大集團攻堅,意味著沒有邊界,要以統一的目標前行」,他說。

更進一步的,他指出,訊飛的大模型團隊是一支成建制的團隊,因此能去實現「1」和「N」之間形成緊密的關聯。

在一支成建制的大模型團隊當「工具人」

在討論國內的大模型如何追趕 ChatGPT 時,還有一個關鍵的問題也常常被擺上檯面進行討論,即什麼樣的團隊配置能對標 OpenAI。

對於這一點,在一次公開場合中,訊飛給出的回答是:「做認知大模型這樣的前沿核心技術研發不是靠堆人,而是靠一定規模的高手之間互相信任、高水平的協同。訊飛研究院最核心的研究團隊有數百人,成員里有不少多年來和訊飛一起成長。」

從「誤打誤撞」進入實習、到一步步成為這個團隊「大家長」,劉聰給出具有更多顆粒度的細節:

「最重要的是人工智慧各個領域主流技術的全面理解,包括算法實現、工程化能力、平台化能力等。研究院在整個 AI 技術和各業務產品方向的協同方面路徑清晰、高度一致。

進一步的是要挂圖作戰,我們指出了目標制定的邏輯,通過反推了解達到目標所需的資源和布局,並且在內部協同、無內耗的原則下與業務的緊密對接。這一點也能避免在實踐中過多的試錯,特別是對於大模型的開發,試錯可能耗費大量時間」。

對於最後一點,他笑稱,實際上在深度學習的「冷板凳」時期,訊飛已交過學費。

《麻省理工科技評論》中國曾經發布過《2021 人工智慧創新研究院(AI Labs)報告》,當時訊飛研究院團隊正是以語音合成、語音識別、認知智能等多個裡程碑入選其中,《麻省理工科技評論》中國給出的評價詞是:

科大訊飛成立二十二年來,在 AI 發展上,樹立了語音合成、語音識別、認知智能、圖文識別等多個裡程碑,堅持「讓機器能聽會說,能理解會思考」的理念,有效推動了 AI 技術在教育、醫療、城市、生活、工業等場景的規模化應用。

2 年過去,當時這支在業內已經相當成熟的團隊,也以「成建制」的姿態做好了迎接大模型時代挑戰的準備。設立有挑戰性的目標,過程中保持高效協同和快速增長,特別是要讓年輕人發揮關鍵作用。

劉聰是《麻省理工科技評論》「35 歲以下科技創新 35 人」的 2018 年的入選者。當時接受《麻省理工科技評論》採訪時,他表示,與團隊一起把握住 AI 技術的下一個趨勢,是他的目標。如今看來,他依然朝這個方向前進著。

圖|劉聰

不同的是,在今年正式成為訊飛研究院院長後,他對自己所扮演的角色有了更多新的感受:院長並非多大的領導,更像是內部的一個工具人,協調各方、服務科學家和工程師成了自己的首要任務。

而對於團隊其他成員的要求,他認為,在團隊的創業階段,需要年輕科學家敢於在關鍵時期靠英雄主義實現技術的重大突破;但是從長期來看,則更需要團隊主義來實現技術的系統性落地,更好支撐各業務方向。從深度學習的興起到現在大模型崛起,他對這一點也更加篤定。

不過,直到今日,訊飛也還在內部強調研究人員依然需要有「板凳能坐十年冷」的決心,因為研究不會是一帆風順的,需要「皮實」一點。

當年他口中的 AI 技術的下一個趨勢已經來臨,訊飛要挑戰在 2024 年上半年實現星火大模型對標 GPT-4,屆時且看 AI 競技場上又將迎來怎樣的技術巔峰和創新風暴。

對於 2024 年的大模型市場競爭態勢,他也給出了自己的判斷:「經過一年的泡沫期之後,大模型領域將迎來分化的趨勢」。

那些具備持續演進並具備對標 GPT-4 能力的通用大模型,並不會大量湧現。相反,已有大模型的發展和落地在各個行業將呈現差異化,這種分化的程度將受到行業實際需求和應用、大模型改造空間等因素的影響。

行業生態也是一個關鍵的因素,一個健康且開放的行業生態系統有助於大模型更好地融入行業實踐,實現技術創新和商業應用的有機結合。

最後,技術投入、產業價值和商業回報之間的關係將在大模型領域中發揮至關重要的作用。投入更多的技術研發和資源是否能夠轉化為產業價值,以及最終實現怎樣的回報,將決定企業在大模型競爭中的地位。

劉聰也為大模型的從業者給出了自己的建議:首先要了解各個領域對技術的需求、技術發展的趨勢,避免出現盲目跟風;也要了解自己所擅長的部分;最後,一定要看未來技術發展的周邊配套。基於個人科研經歷和團隊在 AI、大模型領域的豐富經驗,劉聰總結:「不論從業還是創業,修煉好內功是最重要的。」

文章來源: https://twgreatdaily.com/zh-my/bf2a8407ce3ad826b610fd751df9b1ad.html