本文章轉載公眾號 量子位 | QbitAI
衡宇 發自 凹非寺
投研並舉,這是 騰訊目前快速布局大模型的策略。
量子位獲悉,就在最近一輪清華系AI公司的融資中,騰訊已經出手下注,幫助其中一家風口上的公司快速完成10億級別的Pre-A+輪融資——這家公司叫 深言科技(DeepLang AI),源流自清華大學自然語言處理實驗室 (THUNLP)。
深言還曾陷入美團老王的併購傳聞,但目前為止,被資本層面證實的最重要戰略投資方,依然是剛剛浮出水面的騰訊,以及好未來——這也是好未來首次公開投資大模型公司。
但對於騰訊,深言只是大模型布局的提速。更早之前,騰訊被曝4000萬美元重注投資了 MiniMax,幫助其快速晉升為大模型獨角獸。
騰訊話事人馬化騰已經表態,對於大模型這樣的時代級浪潮不會袖手旁觀,但也不會急於求成搞半成品,會專心搞好研發。
但隨著接二 (尚未)連三的投資布局曝光,也能看出騰訊對大模型技術的決心和重視,以及對於大模型創投市場而言,這同樣是個振奮的消息,畢竟此時此地的創投市場,滿揣現金的騰訊進場,對不少VC都意味著退出保障和市場信心。
清華系AI初創公司深言科技?
深言科技成立於2022年3月,主要面向AI和NLP,目標是用AI及NLP技術,尤其是大模型技術,全流程服務信息處理。
創始人兼CEO 豈凡超,是清華大學計算機科學與技術系2017級博士畢業生,本科時期就讀於清華電子工程系。
在校時,他是THUNLP的一員。其主要研究方向為NLP,曾在EMNLP等頂會發表論文30多篇。
聯合創始人兼COO 李瀟翔,清華電子工程系2017級博士。紅杉中國合伙人張涵也是公司董事之一。
公司當前對外公開的產品,最引人注目的是WantWords和WantQuotes。
WantWords,中文名叫 反向詞典,產品在2021年11月時一度走紅微博,伺服器被多次擠爆。
反向詞典的開發要追溯到更早期,2019年,豈凡超就和同學合作研發了該產品,不僅支持支持中文及跨語言查詢,還進行開源。
項目背後的核心AI,名為 多通道逆向詞典模型,相關論文中選過AAAI 2020。
而反向詞典的項目指導教師一欄中,就有豈凡超的導師,清華大學計算機科學與技術系教授、博士生導師,清華大學人工智慧研究院常務副院長 孫茂松。
孫茂松和豈凡超的合作在後者畢業後仍然繼續。
去年豈凡超博士畢業後,隨即與多位清華碩博背景同學一道,從THUNLP孵化出深言科技。
現在擔任深言科技 首席科學家的,正是孫茂松。
同時,THUNLP實驗室的反向詞典和後續推出的 據意查句(WantQuotes)等,也劃歸深言名下。
關於為深言科技生長提供土壤的 THUNLP,這裡再多說兩句,它是國內第一個開展NLP研究的科研單位,70年代就已經成立。
彼時的牽頭人是國內NLP研究領域的趟路人黃昌寧,也是孫茂松的恩師。
反向詞典另一名項目指導教師 劉知遠同屬THUNLP實驗室,他是孫茂松的學生。
實驗室此前推出的項目,頗受關注的主要有三:
- 中文詩歌自動生成系統 九歌MixPoet ,它訓練過程中學習了80萬首中國古詩;
- 語言表征模型 ERNIE (和百度文心大模型同名) ,可與當時任務最優的BERT媲美;
- 以中文為核心的預訓練大模型 清源CPM ,是智源研究院大模型悟道·文源的前身。
上述項目研發過程時,豈凡超等人尚未畢業,仍身處THUNLP。
投研並舉的騰訊
此前業內流傳一種說法,「騰訊正在變成一家投資公司」。
這種說法背後的觀點認為,看騰訊是否布局一個行業、一個領域,往往是看它向哪個地方砸了錢,而不是自己的業務團隊在做些什麼。
對此騰訊當時的回應是,除了自主開拓多條事業線利用好這些流量以外,不核心的、不專業的項目都會通過投資,交給其他更合適的團隊去做。
但 在大模型領域,騰訊顯然沒有因為對外投資就放棄自己內部的動作,只不過不那麼「著急」而已——
日前的騰訊2023股東大會上,被媒體描述為「身形暴瘦,快認不出」的馬化騰,分享了大模型的觀點:
騰訊也在埋頭研發,並不急於把半成品拿出來展示……
我感覺現在有很多公司太急了,感覺是為了提振股價,我們一貫不是這種風格。
騰訊也在埋頭研發,並不急於把半成品拿出來展示……
我感覺現在有很多公司太急了,感覺是為了提振股價,我們一貫不是這種風格。
此前他還在Q1財報電話會上回應騰訊在大模型方向上的「慢動作」:「對於工業革命來講,早一個月把電燈泡拿出來在長的時間跨度上來看是不那麼重要的。」
雖然「不著急」,但騰訊自身在大模型領域並非毫無動作。
最直接的消息,就是騰訊內部打造了 混元大模型,在今年4月首次對外披露。
而後又公布了新消息,推出國內首個低成本、可落地的NLP萬億大模型。
並且,針對傳聞中「騰訊針對類ChatGPT對話式產品成立『混元助手』項目組」,騰訊給出回應:相關方向上已有布局,專項研究也在有序推進。
據職場Bonus消息,這個項目組的負責人大有來頭,是騰訊史上最高職級擁有者, 張正友(騰訊首位17級研究員/傑出科學家)。
與此同時,隨著大模型群雄逐鹿,對算力的需求激增,騰訊還另闢蹊徑, 在算力層面著力。
根據騰訊Q1財報,騰訊雲計算等ToB業務占據了收入的30%,同時,面向大模型訓練,騰訊採用了最新自研伺服器。
以訓練自家大模型效果為例——萬億參數的混元NLP大模型訓練。在同等數據集下,將訓練時間由50天縮短到11天。如果基於新一代集群,訓練時間將進一步縮短至4天。
技術層面的推進也在持續進行,3月宣布成績的信息檢索領域頂會WSDM (Web Search and Data Mining)宣布WSDM CUP 2023競賽成績。
來自騰訊研究團隊的在 無偏排序學習和 網際網路搜索預訓練模型賽道上的兩項任務中獲得冠軍,現在這兩項成果代碼和論文均已發布在GitHub。
二者中的後者與大模型息息相關,因為數據標註的質量對於模型的效果有著較為顯著的影響。
比賽中,針對基於搜索的預訓練任務 (Pre-training for Web Search),騰訊團隊通過大模型訓練、用戶行為特徵去噪等方法,在點擊日誌上進行基於搜索排序的模型預訓練,進而使模型有效地應用到下游相關性排序的檢索任務。
現在,隨著對MiniMax和深言科技的先後押注,騰訊對大模型領域的內外布局逐漸開始撥雲見日。
騰訊仿佛在走與微軟類似的路線, 投研並舉,即自主研發的同時,不忘對外投資市場看好或擁有技術背景的AI初創公司,一如微軟對OpenAI的押注。
隨之而起的還有創投圈四起的哀嚎:
大廠戰投在大模型一出手就把估值拉賊高,跟不起了啊啊啊啊啊啊啊!!!
大廠戰投在大模型一出手就把估值拉賊高,跟不起了啊啊啊啊啊啊啊!!!
但另一方面,大廠戰投進場,同時也意味著最有保障的退出機制來了。
畢竟移動網際網路時代爭奪「門票」的那幾年,UC也好,91也罷,不都是這樣嗎?
— 聯繫作者—