爭奪「最大」，阿里正式開源720億參數模型

12月1日，阿里雲正式開源了通義千問720億參數的大模型Qwen-72B。

據阿里官方信息，Qwen-72B基於3T tokens高質量數據訓練，在10個權威基準測評中奪得開源模型最優成績，在部分測評中超越閉源的GPT-3.5和GPT-4。

阿里雲CTO周靖人對此表示，開源生態對促進中國大模型的技術進步與應用落地至關重要。通義千問將持續投入開源，希望成為「AI時代最開放的大模型」，與夥伴們共同促進大模型生態建設。

同時，通義千問還開源了18億參數模型Qwen-1.8B和音頻大模型Qwen-Audio。

此前，通義千問系列大模型於8月份開源了Qwen-7B和Qwen-7B-Chat，阿里雲由此成為國內最早開源AI大模型的頭部科技企業。9月，阿里雲又開源了140億參數模型Qwen-14B。

本次發布的Qwen-72B為迄今通義家族中最大規模的AI模型。至此，「通義」系列大模型家族中已開源了18億、70億、140億、720億參數規模的4款大語言模型。

早在11月8日舉辦的2023年世界網際網路大會上，阿里巴巴集團CEO吳泳銘就曾預告過最新模型的開源消息，稱即將開源720億參數大模型，這將是國內參數規模最大的開源大模型。

不到一個月後，720億參數大模型如約而至，但它已不是國內參數規模最大的開源大模型——就在11月27日，浪潮發布並開源「源2.0」基礎大模型，包含1026億、518億、21億三種參數規模。

相較之下，國際領先開源模型Llama系列中，最大的模型參數量為700億（7月份發布）。

在過往一年的大模型市場爭霸賽中，參數規模是各個玩家比拼的焦點之一。究其原因，大模型能力的基石，正是在以億計算的參數規模訓練下形成的質變。但要指出的是，業界普遍認為在達到性能質變的奇點後，參數規模與模型性能之間的關係將不再完全正相關。

一位大模型從業者告訴「市界」：「除了持續增加模型規模，我認為提高模型的可用性對現階段的市場也很重要，比如通過模型壓縮技術，讓超大規模的大模型能夠在客戶的邊緣端運行起來。因為很多領域並不需要超大規模的模型，相反超大規模的模型運行還可能帶來資源的浪費。」

據他介紹，模型壓縮領域存在模型量化、剪枝、知識蒸餾等多種技術，早期主要應用場景在邊緣AI領域，旨在讓模型能夠運行在資源有限的嵌入式設備中，然而隨著大模型AI對資源的高要求，模型壓縮也變成了大模型推理優化的重要方向。

（作者｜董溫淑，編輯｜董雨晴）