支持20萬字輸入,月之暗面楊植麟:千億大模型進入「長文本」時代 | 甲子光年

2023-10-10     甲子光年

原標題:支持20萬字輸入,月之暗面楊植麟:千億大模型進入「長文本」時代 | 甲子光年

一口氣讀完一本《三體》。

作者|趙健

在百模大戰當下,誰會是中國的OpenAI?今年6月,科技媒體The Information盤點了中國AI初創企業Top5,分別為MiniMax、瀾舟科技、智譜AI、光年之外(已被美團收購)以及楊植麟。

楊植麟是唯一一位以個人名字入榜的選手,只要他入局大模型,就會占據一席之地。在過去五年內的自研語言處理(NLP)領域,楊植麟有相當大的影響力,其學術論文在華人學者引用排名中位居前10,在40歲以下排名第一。

昨天,楊植麟在今年3月1日成立的通用人工智慧(AGI)公司「月之暗面」(英文名MoonShot AI),發布了其千億參數級大模型moonshot,以及搭載該模型的智能助手Kimi Chat。

大模型應用效果通常取決於兩個核心指標,一是模型參數量,決定了大模型的「計算」能力;二是能夠接收多少文本輸入,即長文本技術,決定了大模型的「內存」能力。月之暗面在千億參數模型的基礎上,重點突破了長文本技術的挑戰。

Kimi Chat最多支持20萬漢字的超長文本輸入,是目前全球市場上能夠產品化使用的大模型服務中所能支持的最長上下文輸入長度。作為對比,Anthropic的Claude-100k模型支持約8萬字,而OpenAI的GPT-4-32k只支持約2.5萬字。

同時,楊植麟強調,Kimi Chat通過創新的網絡結構和工程優化,在千億參數下實現了無損的長程注意力機制,但不依賴於滑動窗口、降採樣、小模型等常見的對性能損害較大的「捷徑」方案。

月之暗面的名字來自於楊植麟最喜歡的一張專輯——Pink Floyd的《Dark Side of the Moon》,公司成立的日期正好是這張專輯發行的50周年。由於始終背對地球,月球的暗面始終處在地球人的視線之外,它象徵著神秘與未知,而公司的願景就是在人工智慧領域探索這種未知。

發布會後,楊植麟接受了「甲子光年」等媒體的採訪,深度闡釋了月之暗面的長文本技術特點,以及此後的商業落地計劃。

1.「登月計劃」第一步:長文本

月之暗面將長文本技術稱之為大模型「登月計劃」的第一步。

支持更長的上下文意味著大模型擁有更大的「內存」,使大模型的應用更加深入和廣泛。比如通過多篇財報進行市場分析、處理超長的法務合同、快速梳理多篇文章或多個網頁的關鍵信息、基於長篇小說設定進行角色扮演等等。

然而,想要得到一個支持足夠長上下文能力的模型,會在訓練與推理層面對很多挑戰。在訓練層,這不可避免帶來更高的算力需求與極嚴重的顯存壓力,缺乏充足的高質量長序列數據等。

在推理層,Transformer模型中自注意力機制(Self Attention)的計算量會隨著上下文長度的增加呈平方級增長,比如上下文增加32倍時,計算量實際會增長1000倍。同時,超長上下文也將帶來顯存與帶寬壓力。

對於長文本技術的開發,市場上出現了不同的技術路線。但在楊植麟看來,這些路線幾乎都是在犧牲一部分性能前提下的「捷徑」。 楊植麟將其總結為三類:

  • 「金魚」模型,容易「健忘」。通過滑動窗口等方式主動拋棄上文,只保留對最新輸入的注意力機制。模型無法對全文進行完整理解,無法處理跨文檔的比較和長文本的綜合理解。例如,無法從一篇10萬字的用戶訪談錄音轉寫中提取最有價值的10個觀點。
  • 「蜜蜂」模型,只關注局部,忽略整體。通過對上下文的降採樣或者RAG(檢索增強的生成),只保留對部分輸入的注意力機制。模型同樣無法對全文進行完整理解。例如,無法從50個簡歷中對候選人的畫像進行歸納和總結。
  • 「蝌蚪」模型,模型能力尚未發育完整。通過減少參數量(例如減少到百億參數)來提升上下文長度,這種方法會降低模型本身的能力,雖然能支持更長上下文,但是大量任務無法勝任。

楊植麟認為,簡單的捷徑無法達到理想的產品化效果。因此,月之暗面的技術路線,就是不走捷徑,踏實地解決算法與工程的雙重挑戰,在算力、存儲、帶寬等技術層面做了極致的優化。

楊植麟展示了在不同場景下Kimi Chat的長文本能力。比如,可以直接總結網頁或者PDF文檔的信息:

可以直接根據財報總結關鍵信息:

發現了新的算法論文時,能夠直接根據論文復現代碼:

只需要一個網址,就可以在和自己喜歡的原神角色聊天,實現「角色扮演」:

對此,月之暗面是如何做到的?

2.豪華人才團隊,融資超20億元

雖然僅成立半年,但楊植麟表示,在眾多的大模型公司中,「人才密度」是月之暗面的最主要的特色之一。

楊植麟本人本科畢業於清華大學交叉信息學院,師從清華教授、IEEE Fellow唐傑。本科畢業後,楊植麟赴自然語言處理(NLP)研究全球排名第一的卡內基梅隆大學語言技術研究所(LTI)攻讀博士,師從蘋果公司AI負責人Ruslan Salakhutdinov和Google AI首席科學家William W. Cohen。

周昕宇和吳育昕是月之暗面的兩位聯合創始人,也都是清華背景,在大模型方面有非常豐富的工程和算法經驗。

目前,月之暗面組建了50人左右團隊,半數以上的成員擁有海外經歷,分別來自谷歌、Meta、亞馬遜等全球科技巨頭,整體團隊包括了NLP、CV、RL、Infra等方面人才,做了很多有世界級影響力的工作。

比如,在大模型方向,團隊成員發明了RoPE相對位置編碼,是Meta LLaMa和谷歌PALM等大多數主流模型的重要組成部分;發明了group normalization,是Stable Diffusion等AI模型成功的關鍵組件。楊植麟本人以一作身份發表了XLNet與Transformer-XL,Transformer-XL成為首個全面超越 RNN 的注意力語言模型,論文成為NeurIPS 2019與ACL 2019的最高引論文之一;XLNet則在20項任務上超越谷歌BERT模型。

在視覺領域,團隊成員發明了MoCo,引爆了基於對比學習的視覺預訓練範式,也是過去三年CVPR引用量最高的工作;發明了ShuffleNet,最高效的視覺網絡結構之一;主導開發了detectron2,一個被廣泛使用的視覺開源項目並被集成到Meta全線VR/AR產品中。

在基礎設施方面,團隊核心成員曾帶領數十人從零開發世界領先的深度學習框架,也具備數千卡集群全自動化硬體運維告警、數百億特徵檢索、大規模(數十PB數據、百萬台機器)分布式系統數量級性能優化的經驗。

在強化學習方面,團隊成員作為一作提出了基於關係學習的少樣本方法,得到史丹福大學、谷歌、MIT、亞馬遜等團隊的使用和擴展,並獲得過OpenAI RL聯創及負責人John Schulman親自邀請加盟。

除了技術層面,月之暗面也吸納了很多優秀的產品人才,曾操盤過幾億DAU產品經驗。

在豪華的人才團隊加持下,月之暗面也很快得到了投資人的青睞,已獲得來自紅杉資本、真格基金、今日資本、勵思資本等投資機構近20億元的融資,估值超過3億美元

3.要做AI時代的Super App

從商業模式的角度來看,大模型分為to B與to C兩大陣營。儘管在商業落地的探索中,月之暗面保持著開放的心態,但其核心定位放在了to C上。

對於業務定位,楊植麟是以終為始地看待這一問題的。月之暗面名字的由來,就是為了探索智能邊界,並且讓智能真正有用、實現個性化價值,這就需要提高技術與產品的疊代效率。

「疊代效率是我們現在非常重要的關鍵詞,它決定了企業文化、人才結構,決定了做這件事的最終思路。當把這些緯度結合起來,to C就是一個自然而言的選擇。」楊植麟表示。

楊植麟認為,AI Native的產品會在to C領域產生新的流量入口,成為AI時代的Super App,這是一個非常大的機會。

而要想做Super App,就必須用自研模型,因為「只有自研模型才能在用戶體驗上產生差異化」。

這一觀點已經逐漸成為業內共識。比如在近期最新YC校友分享會上,OpenAI CEO阿爾特曼發表演講時也表示,「套殼」OpenAI的公司註定不會長久。

對於當前很熱門的開源模型,楊植麟認為本質上是一種to B的獲客工具,或者是在Super App之外的長尾應用,才可能基於開源模型去發揮數據的優勢或場景的優勢。

但開源模型無法構建產品壁壘。比如,在海外有幾百個基於開源擴散模型Stable Diffusion的應用出現,但最後其實沒有任何一個跑出來。

其次,無法在開源技術的基礎上通過數據的虹吸效應讓模型持續地優化,因為開源模型本身是分布式部署,沒有一個集中的地方接收數據。

因此,楊植麟堅定地表示,不管是從底層邏輯還是當前的現象,都需要通過閉源模型構建產品壁壘。

在落地場景上,楊植麟表示會在不同的方向去嘗試,比如娛樂場景、生產力工具場景等,而非局限在很狹窄的方向上。

楊植麟並未透露很多細節,但表示最終考驗的是技術上能否做到領先,產品上能否快速找到市場PMF,這還是一個巨大的空白市場。

月之暗面當前的核心戰略,就是通過自研的方式,在to C領域打造一個Super App,把握AI時代的流量入口。

(封面圖來源:月之暗面)

END.

點擊文末「閱讀原文」

進入「甲子光年」官網

了解更多精彩內容

文章來源: https://twgreatdaily.com/zh-tw/8c76c901affe1ff7c08a3caaf48c3794.html