以對話式語言計算大模型為核心的大模型體系才是未來。
作者 | 七月
編輯 | 栗子
作為國內最早開啟對話式人工智慧系列技術研發的公司之一,思必馳成立至今已經17年,走過了統計對話時代、深度學習時代,終於來到大模型時代。
如果把發展歷程拉長,來看思必馳的路徑選擇,會發現一切並非偶然。
- 從2013年推出對話工場——賦能語音助手開發者
- 2015年推出AIOS系統——實現軟硬體協同的雲端一體化
- 2017年通過全鏈路智能對話定製平台(Dialogue User Interface ,簡稱DUI),開啟「規模化定製」的征途。
- 再到如今推出第二代東風大模型(DFM-2),可以實現通用人工智慧的「柔性定製」
回顧這一連串的路徑選擇,不難發現,專注於「對話式語言計算」,是思必馳十多年來一直在做的事情。
「AIGC這波浪潮沒來之前,我從2013年就一直在講「對話」,但當時沒人理解,大家一直認為思必馳是個「語音」公司。直到今天我還在講,思必馳一直沒有變過。」思必馳聯合創始人、首席科學家俞凱說。
對於思必馳來說,似乎當下通用人工智慧時代的到來,順勢推出東風大模型,更像是一場自然而然的疊代。
1.AI老將的「對話」基因
思必馳成立於2007年,正好是國內智能語音界的「老大哥」——科大訊飛上市的前一年。
從劍橋畢業出來創業的高始興(思必馳董事長、CEO)和俞凱(思必馳聯合創始人、首席科學家),最先瞄準的是教育市場。2009年,他們研發出了全世界第一個中文發音作業系統,令市場為之側目。
畢竟在語音識別技術上,就連科大訊飛聯合創始人胡郁也承認,在深度學習浪潮出來之前,劍橋的語音識別技術是領先的。
而作為劍橋大學語音博士,俞凱曾與劍橋導師 Steve Young(劍橋大學皇家工程院院士)教授、Blaise Tomson博士一起,共同創辦了英國語音技術公司VocallQ(現已被蘋果收購)。
彼時,移動網際網路浪潮還沒有興起,國內語音交互項目並不多。智能語音行業的知名公司有國外的Nuance和國內的科大訊飛,應用場景多在嵌入式語音識別、呼叫中心語音播報等領域。
「沒有需求則『技術無用武之地』」,這一點在人工智慧創業圈裡早已達成共識。
較長一段時間,技術型創業的思必馳,也只能是「拿著錘子找釘子」,想在一個有限的場景中找到突破口迅速做深獲取收入並持續投入,十分困難。
時間轉眼間來到2013年,這一年中國移動網際網路的中場拉開帷幕,移動網際網路市場規模突破千億大關。智慧型手機迎來換機潮,出貨量3.2億台,同比2012年上漲了64%。
另一方面,Siri等語音助手的興起,引爆了整個網際網路市場和物聯網市場。一時之間,市場上出現成百上千款語音助手產品;高通、思科、海爾、LG等公司也聯合起來組成了名為AllSeen的技術聯盟,希望借聯盟的力量推動物聯網的發展。
思必馳此時判斷,語音識別要開始往語音交互方向走。基於這一判斷,「對話工場」這一對話平台應運而生,並且開放底層的ASR、TTS、NLU等SDK接口,試圖賦能當時的語音助手開發者。
「對話工場」平台的誕生,高始興稱之為思必馳的二次創業。
然而遺憾的是,彼時物聯網剛剛起步,市場規模沒發展起來,更不用說物聯網中的人工智慧自然語音交互市場,從產品普及度到產業鏈的成熟度、產業化落地速度和質量都不夠。就這樣,對話工場成了「早產兒」,被擱置一邊。
「在2013 年這個時間點做對話平台,方向對了,時機有點早。」高始興後來反思道。
一年之後,物聯網的風口漸起。2014年亞馬遜推出第一款智能音箱Echo,點燃了國內AI音箱大戰的導火索,拉開了「百箱大戰」的序幕。谷歌Home、蘋果的Home Pod以及國內的阿里天貓精靈、小米的小愛同學、獵豹AI音箱等紛紛入場。
思必馳敏銳的感知到,由PC網際網路時代到硬體物聯網變革的時間節點已來,語音交互的時機來了。
2014年,思必馳選擇將教育事業部完全剝離,all in物聯網,專注智能硬體和移動網際網路,開啟了選擇軟硬一體化的道路,並順勢而為地做了一款智能車載產品「車蘿蔔」,將語音人工智慧落地到創新端。
隨後,思必馳推出了AIOS系統,開始賦能三個垂直市場:車載、家居、機器人,滿足這三個垂直領域在自然語言領域不同的需求。
到了2016年,物聯網市場的帷幕完全拉開。思必馳團隊發覺,越來越多的開發者和客戶在個性化、定製化、敏捷度等方面的需求越來越高,AIOS 已經跟不上了市場需求了。
2017年,輾轉四年的思必馳終於可以做回初衷,推出全鏈路定製一體化對話式平台DUI。
高始興說,這是一個「專注了四年的夢想」。
(圖源:思必馳官微)
從「對話工場」到「AIOS系統」,再到「DUI」,又回到了對話平台,兜兜轉轉之間,思必馳二次創業終於走向心中的那條路。
早產兒「對話工場」讓高始興明白,「水到渠成」很重要。如果沒有走過一些彎路,思必馳無法了解自身需要什麼樣的能力,就無法將這些能力去模塊化,更無法給開發者提供全鏈路服務。
至此,思必馳算是正式「步入正軌」,也即將開啟語音交互全鏈路的探索。
2.第二代東風大模型:一場自然疊代
時隔三年,思必馳再次線下與大家相見,召開了東風大模型發布會。
此次的主角是DFM-2(第二代東風大模型),中文取首字母諧音「東風」,既取AI行業東風已來之意,又意指借大模型之東風,助力千行百業,也與思必馳「溝通萬物,打理萬事」的理念遙相呼應。
第一代從未公開亮相過 ,為什麼思必馳會將此次推出的大模型命名為第二代,是不少現場參會者的共同困惑。
(圖源:思必馳)
俞凱解釋道,早在2021 年,思必馳就提出面向通用對話理解的統一生成式建模框架UniDU,後來又擴展為集對話、生成、表征三大能力於一體的對話式通用語言大模型,也就是第一代 Dialogue Foundation Model(DFM-1)。
雖然DFM-1這款大模型沒有對外公開亮相,但在2022年思必馳內部已經進行了小規模的產品應用,這是一款十億級別參數的大模型。
在此基礎上,思必馳使用千塊GPU卡量級的超算資源,整合擴展資源,在已有算法研究和數據積累的基礎上,將億級參數模型擴展到百億以上量級。今年四月,百億級的大模型開始內測,直至近日正式推出DFM-2。
「我們推出大模型的速度,不快也不慢。先用後說,以終為始是思必馳的特點。」俞凱說。
思必馳東風大模型的定位是行業語言計算大模型。
在俞凱看來,大模型一定是在對話式語言計算的領域下,才能獲得更多的發展機遇。
「語言是人類所有調度的中樞,強調對話式語言計算這件事情是思必馳特別的理念。我不認為大模型是未來,以對話式語言計算大模型為核心的大模型體系才是未來。」俞凱說道。
而行業語言計算大模型需要具備三個基本能力:通用智能和知識,解決行業挑戰的能力,與全鏈路綜合對話技術能力聯動的能力。東風大模型正是圍繞著這三方面能力來構建的。
- 通用智能及知識能力
通用人工智慧大模型有一個特點,就是當參數規模達到百億量級以上會出現情境理解、指令學習、思維鏈推理、常識問答、內容生成、數學計算、代碼生成等,具備相對穩定的認識性能力。
現場,思必馳展示了DFM-2的通用智能能力。在C-EVAL、CMMLU、MMLU、AGIEval、Gaokao 等通識能力評測中,以及在DialogZoo對話理解及生成任務標準評測中,百億量級的DFM-2位次並不低。
這也由此引申出對「大模型是不是越大越好」的思考。
俞凱的觀點是,大模型並非越大越好。只要具備了一般的通用智能的能力、通用的認知能力,再加上合理的知識記憶能力,就有可能形成一個合理的模型體量來解決行業問題。
(圖源:思必馳發布會PPT)
- 解決行業挑戰的能力
隨著「百模大戰」拉開帷幕,不斷湧現出的大模型也逐漸讓人們意識到,通用大模型會面臨著私域知識難包含、不準確,判別式任務精度及時效性不足,數據安全和計算可信問題,以及成本高、速度慢等問題。
積極應對行業落地挑戰的能力是推動產業應用的關鍵,這主要包括專業化領域遷移、個性化知識技能定製,小型化低成本部署、全鏈路低延遲交互,私有模型持續更新進化,多模態感知技術聯動等能力。
- 與全鏈路綜合對話技術能力的聯動
語言計算永遠不是終點,真正實現用戶體驗的一定是端到端的系統才能作為一個終點。
因此東風大模型需要和思必馳全鏈路對話系統進行綜合技術聯動,包括感知技術,數字人技術等。
現場,俞凱演示了基於其個人形象合成的數字人,展示了自然場景數字人生成技術,通過小數據模型訓練,實現高品質數字人生成。
同時,俞凱也展示了基於其語音數據訓練的粵語及英語合成音,個性化對話生成與語音合成模型無縫結合,構建可自由交互個性化數字形象。
思必馳技術總監樊帥博士表示,DFM-2發布後,思必馳下一代千億級大模型DFM-3也已蓄勢待發,預計2024年面世。
3.To B 行業里難解的「矛盾」
早在2017年,思必馳就曾提出這樣一個矛盾:技術提供商的定製效率無法迅速滿足B端用戶定製和產品疊代的需求。
因此,圍繞著如何實現「規模化定製」這一議題,思必馳投入巨額研發費用。
2017年發布DUI開放平台後,開始走上規模定製化開發之路 ;為了提升智能語音性能,2018年仍未盈利的思必馳成立了更為燒錢的晶片公司深聰智能,打造「算法+晶片」一體化的整體解決方案。
六年過去了,這個矛盾依然存在,甚至無可避免。只是隨著DFM-2的出現,或許將有了不同的應對方法。
「思必馳一直以來希望做的事就是人工智慧裡面的柔性製造,我們把整個對話系統的鏈路拆解開,讓每一個環節都有定製化的可能,並且將這種定製過程工具化。生成式人工智慧也仍然在我們這個框架裡面。」俞凱說。
DFM-2大模型的出現,將不斷完善思必馳的規模化定製能力和產品標準化能力,支持客戶自主構建「千人千面」的個性化語音交互解決方案,實現了人機口語對話系統的「柔性批量製造」。
細細拆解來看,思必馳的核心技術能力包含全鏈路語音語言交互、軟硬一體化人機對話系統構建、以及大規模自動化人工智慧定製三大部分。
在產品端,思必馳以自研的智能對話系統定製開發平台(Dialogue User Interface ,簡稱DUI)和AI語音晶片(TH1520)為核心,圍繞「雲+芯」進行布局。
依託於 DUI 平台,思必馳主要有三大類產品形態:智能人機互動軟體產品、軟硬一體化人工智慧產品與對話式人工智慧技術服務(包括技術授權服務和定製開發服務)。
上述三大產品中,第三類對話式人工智慧技術服務的營收占比最高,去年這一數值超50%。而軟硬一體化人工智慧產品增長勢頭最猛,僅2022年,搭載思必馳語音產品出貨的智能家居及消費電子終端數近3000萬台。
(圖源:思必馳招股書)
在尋求場景落地,思必馳能快速滿足智能汽車、智能家居、消費電子,以及金融、軌交、政務等數字政企行業場景客戶的複雜個性化需求。
其中智能汽車車載語音領域是思必馳近幾年的持續發力點。
自2019年正式進入汽車前裝領域,截至今年6月底,思必馳已累計「上車」622萬輛、賦能的量產車型已達80款,在TOP銷量的新能源汽車中,思必馳的合作率是行業第一。
思必馳董事長、CEO高始興(圖源:思必馳發布會現場)
根據高工智能汽車研究院監測數據顯示,中國車載語音市場可以分為三個階段:
以2020年為界限,中國車載語音市場的1.0階段,主要實現基礎的識別功能,如電話、導航的單項控制。
隨後進入2.0階段的高速成長期,增加了車控部分,包括空調、天窗的控制等更多元化的功能。同時,語音交互能力開始升級,並融合了車端和雲端互聯服務。
而進入3.0階段,車載語音功能更多強調的是個人智能助理的角色。以人機對話交互為核心,融合智能導航、多媒體娛樂、車身控制等智能座艙人機互動需求,更多涉及語言模型定製、個性化語音合成、對話邏輯定製等。同時,開始進入艙內多模態交互的系統構建階段。
搭載DFM-2大模型後的思必馳,在3.0階段的智能汽車車載語音功能領域,將實現更多可能性。
俞凱認為,在 To B 場景中,所有的評價指標是多維且複雜的,這件事無法被通用人工智慧簡單替代。而思必馳長期以來在解決這個矛盾中總結的經驗和積累的理念,會被沉澱放大。
毫無疑問,大模型時代的到來,對在各個細分行業場景里紮根多年的思必馳來說,機會已來。
4.與蘇州的雙向奔赴
作為一家在蘇州土生土長的人工智慧企業,十多年前,思必馳起步於蘇州工業園區獨墅湖圖書館的一間小房間,現已逐漸擴張為一支上百人的團隊,成為蘇州人工智慧產業中的重要一員。
2022年,思必馳獲批建設「語言計算國家新一代人工智慧開放創新平台」,涵蓋「語音+語言」全場景對話技術,是江蘇省首家獲批的企業。
反過來,思必馳也在用自己的能力,反哺蘇州這座城市。
在任何地方,人工智慧的生產和應用,一定是變成生態才有價值。對於思必馳與蘇州的雙向奔赴,可以用「兩個生態」來理解。
從「造」人工智慧的生態來看,思必馳多年來在數據端、算法端、晶片等領域持續投入和深耕,而「造生態」的本身就是創造價值並且使得促使產業升級的一個過程。
而從「用」人工智慧的生態來看,蘇州作為新一代人工智慧開放創新的試驗區(以下簡稱「一區」),在人工智慧製造、智慧文旅、金融科技、政務等領域,思必馳在這些行業場景中均有應用落地。
- 在智慧文旅方面,思必馳推出能講一口標準吳語的「蘇阿姨」;與蘇州廣電總台聯合打造吳方言人工智慧主播。
- 在金融領域的外呼機器人,思必馳做到了市場份額全國第一。
- 在蘇州被稱為「富礦」的製造領域,於先進材料這一端,思必馳DFM-2大模型開啟與姑蘇實驗室合作,對專業化學數據以及化學資料庫知識進行微調,進而讀懂化學分子式並進行設計,助力新型材料研發。
- 政務方面,思必馳同蘇州的大數據集團也在積極推廣應用落地。
作為蘇州「一區」建設的骨幹成員,思必馳的使命是把大模型產品打造成「一區」的基礎設施和公共服務。
2022年,蘇州人工智慧相關產業規模已達1250億元,蘇州工業園區人工智慧產業規模超800億元,且已連續多年保持30%左右的增幅;僅今年前5個月,園區內人工智慧產業已實現產值424.5億元。
目前,蘇州工業園區已集聚人工智慧相關企業1500家,其中上市企業16家、各類獨角獸(含培育)企業54家、各類瞪羚企業187家。
園區內已經構建了蘇州國科數據中心、蘇州超級計算中心等算力底座;形成了以「AI+製造」為特色的多應用場景開發;作為中國人工智慧產業的重要年會——吳文俊人工智慧科技獎頒獎盛典落子蘇州。
前不久,蘇州工業園區內的企查查也發布了一款大模型——「知彼阿爾法」。這款大模型是基於企查查在商業查詢領域近十年可信數據積累後進行大規模預訓練的成果。
生物醫藥作為蘇州的「一號產業」,也逐漸迎來更多與人工智慧深度綁定的機會。
去年7月,由百度創始人李彥宏等投資創立的中國最大的生物計算平台——百圖生科蘇州研發中心園區啟用。隨後,百圖生科就推出免疫機器人「ImmuBot」,基於人工智慧為每個靶點配備高性能彈頭,目前已在10餘個項目上取得進展。
整體來看,蘇州在人工智慧產業領域取得了不錯的成績,但是決心還可以再大一點。以蘇州工業大市的經濟體量,完全能夠支撐得起人工智慧廣泛的應用場景。對於當下這波人工智慧浪潮,如果錯過了,回過頭來還要做同樣的事,但是一些先發優勢就沒有了。俞凱說。
「思必馳作為蘇州本地企業,在實現技術落地的同時,非常樂意和當地特色產業進行深度融合。」