大模型深入智慧之地,手機廠商會如何交卷?

2023-11-24     InfoQ

原標題:大模型深入智慧之地,手機廠商會如何交卷?

受訪嘉賓 | OPPO 數智工程事業部總裁 劉海鋒

作者 | 羅燕珊

1一條新路出現:跟風與乘勢?大模型浪潮下的未見與先見

在蓬勃發展的 AI 浪潮中,各行各業似乎都在積極投入大模型。由此我們更想探討,企業之所以追逐大模型,是基於真實的業務需求,還只是跟風效仿?

我們試圖著眼於大模型風起雲湧的智慧型手機領域,從一位探索者的實踐里找尋答案。

在 2023 年之前,劉海鋒在 OPPO 所帶領的團隊除了承擔 OPPO 雲、大數據、推薦搜索、網際網路安全的技術工作,還專注於打造小布助手這款個人 AI 產品,並不斷疊代升級技術棧。

從最初使用垂域數據和 FAQ 進行檢索,到引入神經網絡提升長尾問題應答能力,實際上過去這些年,對話系統也逐漸形成了一套標準的架構範式,包括語音識別、意圖理解、槽位填充、對話管理和生成等等。這種架構成為全行業的標準範式,在包括Apple、Google在內的大公司里已經穩定運行多年。

然而,自從 Transformer 模型問世後,許多公司開始嘗試預訓練方法,以便更準確地理解和回答一些長尾問題。

2020 年,OPPO 內部的認知計算部門已啟動預訓練語言模型的探索與實踐。據 InfoQ 近日與劉海鋒交談了解,當時做預訓練模型的初衷是應對那些無法通過常規方法回答的長尾問題,或者處理一些比較自由的、多輪的閒聊對話。

「那時候預訓練模型並非承擔主力任務的角色,大約有 5%~10% 的問題可能會被引導到它這兒,它更多是做一個補充,做深層次的問答。」

然而,這樣的技術棧也帶來了現實的問題,整個系統變得相對複雜,包含多路問答的解決方案,卻沒有完美地解決所謂的對話問題,且距離認知智能還很遙遠。

在這個背景下,OpenAI 蹚出了一條新的路線,通過 ChatGPT 這樣的產品,展示了用更簡單的架構、利用大模型來生成所有問題答案的可行性。

因此,時至今日,對手機及智能終端廠商而言,大模型已經不是選擇題,而是一道必答題,大家紛紛探索如何通過大模型讓設備里的「智能助手」變得更智能,因為這很有可能成為未來終端廠商的核心競爭力之一。

2視線定義路線:那些「這裡面一定有金子」的時刻

11 月 16 日,在 OPPO 2023 開發者大會上,劉海鋒宣布 OPPO 正式推出自主訓練的安第斯大模型 (AndesGPT)。

實際上,在今年春節後,劉海鋒便組織團隊迅速推進 AndesGPT 項目,目前已疊代了多個版本。OPPO 主要訓練了三大類規格的模型——AndesGPT-Tiny、AndesGPT-Turbo 和 AndesGPT-Titan,涵蓋十億至千億以上多種不同參數規模的模型規格,靈活滿足不同應用場景的需求。

劉海鋒強調,無論是做 AI 大模型,還是任何系統和產品,其核心特性和功能通常是由公司對用戶的主張、過去產品的經驗積累等方面所決定,而不是憑空定義。

而對於 OPPO 而言,AndesGPT 更多源自智能語音助手「小布」的積累,其應用載體也主要是小布助手這一 C 端產品。據悉,近 5 年來,在構建月活過億的 C 端產品小布助手的過程中,OPPO 已經完成了大規模高質量語料數據的積累。

基於此,OPPO AndesGPT 的三個核心技術特性分別為:對話增強、個性專屬和端雲協同

  • 對話增強:由於智能助手主要通過對話進行交互,因此強化「大模型知識問答的精準性」、優化「對話交互的流暢和自然度」是首要特性。
  • 個性專屬:OPPO 是一家面向消費者的公司,強調為每個用戶個體提供有用的大模型和智能應用。因此,與服務企業的大模型不同的是,AndesGPT 更關注滿足個人用戶的需求。這也導致其在技術和產品路線上與 ToB 的大模型存在差異,OPPO 要求模型是有狀態的、能夠記憶用戶過去的交互歷史、了解用戶的偏好和興趣,以提供更好的個性化服務。
  • 端雲協同:由於大模型主要託管在雲端,對智能終端產業來說,在技術上實現端雲協同非常重要。OPPO 的方案是把小規格的模型放在手機上運行,讓一些應用即使在斷網的情況下也能使用。

核心能力方面,AndesGPT 聚焦在四個方向:知識、記憶、工具、創作。

「雖然大模型和產品在現階段仍有不足,也經常會遇到 bug,但團隊致力於不斷疊代和改進。」劉海鋒表示,目前在大模型的實際應用上,更多的還只是「邁出了第一步」。

獨家技術創新 SwappedAttention

事實上,OPPO 團隊在兩年前就開始對預訓練語言模型進行探索和落地應用,自研了一億、三億和十億參數量的大模型 OBERT。

目前業內模型訓練中主要面臨的挑戰有兩個:效率和成本。效率方面涉及如何在有限的資源內高效進行模型訓練,而成本方面則關注如何最大程度地發揮每顆 GPU 的價值並降低訓練的總成本。

劉海鋒表示,受益於團隊此前在「智能推薦」、「小布助手」場景里積累的經驗,以及在大規模系統架構、雲計算以及分布式系統方面的積累,使得 AndesGPT 項目的 Infra 優化有經驗可循,再藉助混合雲架構,靈活解決算力資源瓶頸問題。

訓練大模型只是整個過程的第一步,關鍵在於將其應用到實際產品中,解決性能和效果方面的問題,形成一個持續疊代的閉環。

那麼,AndesGPT 如何進行創新和演進,如何變得更好?劉海鋒以「記憶」能力為例展開說明,比如安第斯大模型「一定要提供 stateful API」,要提供無限的上下文能力。

但實踐過程中,團隊發現面臨這樣一個問題,即當上下文越來越長時首次推理的延遲很高。為解決長時記憶帶來首字推理延遲的技術挑戰,他們把一些先進的方法應用上,比如 FlashAttention 和後來的 PagedAttention(由加州大學伯克利分校提出)。如此一來,模型的應用性能是有得到提升,效果也有改善。

但這樣還不夠。劉海鋒告訴 InfoQ,他覺得這裡面還有更多的發掘空間,他當時跟團隊說:「這裡面一定有金子。」

在 PagedAttention 的基礎上,OPPO 做了技術的演進和擴展,自主研發了長時記憶機制並命名為 SwappedAttention。長時記憶主要包括用戶交互過程中產生的交互歷史、個人數據,以及從中提取的結構化信息等。

具體而言,SwappedAttention 是通過將內存空間與計算交換、緩存歷史的鍵值對(KV 值)的思路,來大幅減少首字計算量。

同時,SwappedAttention 採用了多層級緩存機制,涵蓋了 GPU 顯存、主機內存以及通過 GDS(GPU Direct Storage)連接外部存儲設備。根據緩存時長、對話頻率等策略進行分級存儲與交換,以最優化資源利用。

實現場景方面,以處理多輪對話場景為例,隨著聊天輪數累積,SwappedAttention 能有效減少對話時首字推理時間,用戶可獲得更快的系統響應。

而 FileChat 文檔對話場景中,可以避免長文本的 KV 值進行重複計算,大量減少計算開銷,縮短首字推理時間,並且可提升首字計算的並發度。在非首字的推理過程中,SwappedAttention 可以動態壓縮 KV 值,進一步降低顯存占用,提升整體吞吐量。

劉海鋒表示,上述創新思路其實還是從經典的計算機科學裡獲得的啟發。

「既然 GPU 里可以使用以 page 為單位的 cache,那麼一定可以做以會話 /session 為粒度的 cache。既然這個 cache 可以存放在 GPU 內,那也可以將其交換到外部,交換到伺服器的內存以及後台分布式系統的內存中。」他進一步解釋,這個思路類似於計算機科學中存儲層次的原理,有小 cache 就有大 cache,有 L1 cache 就有 L2 cache、L3 cache,它們不矛盾,可以疊加使用。

通過更大的緩存,結合 PagedAttention 算法一起使用,SwappedAttention 最終能夠帶來 50% 的首字延遲降低,以及 30% 的推理吞吐提升。

毋庸置疑,於大模型研究者而言,優化推理性能是一個需長期解決的問題。劉海鋒表示,儘管有了 FlashAttention、PagedAttention 以及 SwappedAttention 等方法,實際上後續還會湧現一系列具有彈性的算法優化機制,以進一步降低推理延遲。

端雲協同

目前,基於 AndesGPT 全新升級的小布助手,已進一步強化端雲協同能力,在終端和雲端分別部署 Tiny 和 Turbo 模型,根據使用場景和網絡狀態做智能分流。

劉海鋒指出,端雲協同,實際上是大模型促使原來智能助理的應用架構發生了改變。具體實現上,是在手機側部署小模型(AndesGPT-Tiny)、雲端部署大模型,然後由智能助理應用程式根據實際情況調用不同的模型。

最初 OPPO 在生產環境使用的模型參數規模大約在十幾 B 左右,後來團隊發現模型在湧現性方面相對遜色。進行了幾次升級之後,目前雲上使用的是 70B 的模型(AndesGPT-Turbo),運行效果良好。與此同時,內部還在推進千億級別參數規模的模型優化(AndesGPT-Titan),目前還沒有推向線上。

「我們必須承認所謂大的語言模型,它的核心特性叫做智能湧現。你要想讓模型獲得湧現能力,參數規模必須要足夠大。」劉海鋒強調道,今天行業內的一個基本共識是,要達到智能湧現的特性,模型的參數規模可能需要達到 50~70B 才行。因此,如果一些問題是需要智能湧現能力才能解決,那就必須使用雲端部署的大模型

對於模型調用的流量分配,劉海鋒表示主要是根據用戶場景做判斷,比如某個應用總是執行固定的任務,或者處於斷網的情況下,一般就會調用設備側的小模型。再比如某個降級訪問的問題,或者是有限場景下的使用,那麼在終端側部署的小模型也是可以解決的。

關於大模型在實際應用中的權衡和選擇,劉海鋒表示還涉及到功耗、內存等多方面的問題考慮,也是目前業內同行都在積極探索的熱點。

3顛覆已然到來:大模型要把底層翻新,基礎設施面對挑戰

整體來看,如今融入 AI 大模型的新一代智能助理產品給基礎設施帶來了不少新的挑戰。

劉海鋒指出,與之前大規模的 Web 應用架構相比,大模型的技術堆棧變得更為複雜。過去的架構比較「規整」,可以分為存儲、離線數據處理、在線緩存和資料庫等等層次,規模大了後也可以採用分布式系統架構,以「scale out」方式橫向拓展。

但是對於今天的大模型和智能體應用來說,GPU 的需求變得極高,GPU 取代了 CPU 成為核心計算單元,這使得許多軟體問題都需要圍繞 GPU 來看

其次,大模型應用的賦能也分不同的階段來看。首先是訓練階段,對 GPU 的選擇、網絡基礎設施和整體容錯能力都有很高的要求。例如,在訓練過程中需要定期有 checkpoint,將參數寫入底層存儲。這對存儲系統提出了新的挑戰,需要定製一套系統來處理從 GPU 加載數據到分布式內存存儲的問題。

第三,一旦模型訓練完成並推送到線上,就需要優化推理性能,以實現更有效的 GPU 利用。如前文所述,推理優化也是一項長期工作。

第四,在推理之外,模型的外圍系統比如檢索增強也需要格外重視和持續構建。劉海鋒進一步表示,向量資料庫是目前比較熟悉的一種解決方案,但隨著模型上下文窗口的增大和模型能力的提升,他認為對於向量資料庫的依賴可能會降低,也許會催生出新的系統架構,更易於使用或功能更強大,以彌補大模型本身的不足。

最後,他認為前端應用也會有較大變化,因為前端應用可能需要接多個模型,需要考慮多個模型的分流,這涉及到整體的判斷邏輯。

總的來說,劉海鋒認為大模型時代使得軟體架構以 CPU 為中心變成以 GPU 為中心,從訓練到推理,再到增強和前端應用,不同環節的技術架構都與移動網際網路時代有著顯著的不同之處。伴隨這波浪潮而來的是,許多技術挑戰都將變得更加硬核。

4倒逼下的改革:從技術的研發方式,到人的組織方式

隨著 AndesGPT 項目的啟動,劉海鋒對團隊的人力投入和資源配置進行了調整。目前,內部的大模型團隊主要由以下團隊構成:

  • 模型競爭力團隊:負責模型訓練和調優。
  • 智能助理團隊:也最核心的大模型應用產品的團隊,專注於開發和改進智能助理應用,與模型競爭力團隊協同工作,相互挑戰和共同進步。
  • 應用 +AI 團隊:使用安第斯大模型的 SDK,將其應用於公司已有的應用中,不限於智能助理,還要擴展到其他 C 端應用或孵化新應用,使終端產品更加智能。
  • 企業 +AI 團隊:也叫企業智能化團隊,主要將安第斯大模型應用於企業內部,涵蓋的場景包括編碼、數據分析、營銷等,以提高效率和智能化。
  • AI 安全團隊:負責整體泛 AI 安全,包括數據安全、隱私保護以及更廣泛的倫理和價值觀等多維度的安全問題。

值得一提的是,今年春季後,劉海鋒迅速成立了「安第斯 AI 安全實驗室」,專注於為大模型和人工智慧提供安全保障。其指出,大模型的安全性與保障應用程式安全的工作有很大的不同。

傳統的應用安全工作主要關注 App 是否惡意,是否存在濫用行為等問題。然而,大模型和 AI 的安全性問題涉及到另一個維度,比如生成的內容是否包含敏感信息以及是否符合價值觀等方面的考量

同時,大模型安全需要處理的數據量也更大了。原來的「移動網際網路安全」主要處理用戶輸入的數據,例如上架的應用、搜索查詢等。然而,對於生成式 AI 的安全性而言,不僅需要處理輸入,還需要關注輸出。而輸出的數據量通常比輸入大一到兩個數量級,對返回的內容都需要進行額外的處理工作。

因此,AI 安全,尤其是生成式 AI 的安全性,也是接下來技術工作者需要重點解決的一個難題。

除了安全挑戰之外,隨著大模型項目的推進,劉海鋒對於人才能力挑戰的問題深有體會。他認為,首先,新一波 AI 浪潮對產品經理能力提出了更高的要求。現代 AI 產品往往是技術驅動的,因此 AI 產品經理需要更「懂技術」才能進行高質量的決策和判斷

其次,對於研發同學,單純懂算法是不夠的,還需要對算法和架構有深入的理解。AndesGPT 團隊成員要麼是既熟悉算法又懂工程和架構,要麼是雙方能夠很好地協同工作。

由於大模型存在許多不確定性,其可解釋性還是個開放的問題。因此一個新的模型上線後,不能用單一指標來對整體效果做評判和反饋,且評測周期長,維度也比較複雜。劉海鋒認為,大模型測試領域可能會出現新的技能和崗位需求。

為了適應新興技術和需求,OPPO 會在實踐的過程中靈活調整團隊,比如嘗試讓技術研發同學擔任產品負責人的角色等。「我覺得在新的時代,研發同學的組織方式也會有一些變革,它會跟原來不太一樣。」

5深入智慧之地:未來,終端設備里的 AI 將無處不在

據悉,為了更好地促進大模型及智能體生態發展,AndesGPT 後續將開源智能體框架,便於開發者打造自己的智能體

此外,AndesGPT 團隊也在開發一款個人知識管理智能體(簡稱 PKA)。用戶可以把日常工作生活中閱讀的文章、文檔、文件和筆記上傳存儲分析, 結合大模型的理解和記憶能力,PKA 就能成為用戶的個人知識管家——快速回答問題,這些問題可以是對某個知識點的詢問、某篇文章的總結,甚至全局問答。

劉海鋒進一步表示,智能體不需要額外安裝,而是嵌入到小布助手當中,並分為不同的頻道,每個頻道涵蓋不同的話題或服務,這有點類似於網際網路門戶時代的頻道劃分。OPPO 希望開發者和終端用戶都能夠創作或定義智能體,並互相分享有趣和實用的智能體,推動生態的創新和互動。

今天,網際網路大廠和行業巨頭紛紛布局自己的大模型,有些還提供公用的服務。但與此同時,許多追求業務領先的企業也會訓練自己的模型,在劉海鋒看來,這是一個互補的關係,如同混合雲架構,它們並不是互相取代的關係

「如果你用雲計算的視角,你可以把大模型看成是一朵 AI 的雲,我們還是把高質量的知識編碼到這朵雲里,然後它去做高性能的推理。所以,從這個角度上看,我覺得很多東西在技術上可能屬於不同的話題,但基本的原理實際上是高度一致的。」

未來,劉海鋒認為生成式大模型會成為終端廠商的核心產品和技術競爭力,與「拍照」、「自有 OS」並駕齊驅成為三條核心技術賽道。進一步地,智慧型手機會成為真正的人工智慧手機,而 AI 則會無處不在,作為「一個智慧的外腦」嵌入到每一個軟體和硬體里。

可見,大模型的進化將會是一次「深入智慧之地」的旅程。而它,才剛剛開始。

文章來源: https://twgreatdaily.com/zh/326ccab95a72e4dcf9db60b8ce64126d.html