爭奪「最大」,阿里正式開源720億參數模型

2023-12-01     市界

原標題:爭奪「最大」,阿里正式開源720億參數模型

12月1日,阿里雲正式開源了通義千問720億參數的大模型Qwen-72B。

據阿里官方信息,Qwen-72B基於3T tokens高質量數據訓練,在10個權威基準測評中奪得開源模型最優成績,在部分測評中超越閉源的GPT-3.5和GPT-4。

阿里雲CTO周靖人對此表示,開源生態對促進中國大模型的技術進步與應用落地至關重要。通義千問將持續投入開源,希望成為「AI時代最開放的大模型」,與夥伴們共同促進大模型生態建設。

同時,通義千問還開源了18億參數模型Qwen-1.8B和音頻大模型Qwen-Audio。

此前,通義千問系列大模型於8月份開源了Qwen-7B和Qwen-7B-Chat,阿里雲由此成為國內最早開源AI大模型的頭部科技企業。9月,阿里雲又開源了140億參數模型Qwen-14B。

本次發布的Qwen-72B為迄今通義家族中最大規模的AI模型。至此,「通義」系列大模型家族中已開源了18億、70億、140億、720億參數規模的4款大語言模型。

早在11月8日舉辦的2023年世界網際網路大會上,阿里巴巴集團CEO吳泳銘就曾預告過最新模型的開源消息,稱即將開源720億參數大模型,這將是國內參數規模最大的開源大模型。

不到一個月後,720億參數大模型如約而至,但它已不是國內參數規模最大的開源大模型——就在11月27日,浪潮發布並開源「源2.0」基礎大模型,包含1026億、518億、21億三種參數規模。

相較之下,國際領先開源模型Llama系列中,最大的模型參數量為700億(7月份發布)。

在過往一年的大模型市場爭霸賽中,參數規模是各個玩家比拼的焦點之一。究其原因,大模型能力的基石,正是在以億計算的參數規模訓練下形成的質變。但要指出的是,業界普遍認為在達到性能質變的奇點後,參數規模與模型性能之間的關係將不再完全正相關。

一位大模型從業者告訴「市界」:「除了持續增加模型規模,我認為提高模型的可用性對現階段的市場也很重要,比如通過模型壓縮技術,讓超大規模的大模型能夠在客戶的邊緣端運行起來。因為很多領域並不需要超大規模的模型,相反超大規模的模型運行還可能帶來資源的浪費。」

據他介紹,模型壓縮領域存在模型量化、剪枝、知識蒸餾等多種技術,早期主要應用場景在邊緣AI領域,旨在讓模型能夠運行在資源有限的嵌入式設備中,然而隨著大模型AI對資源的高要求,模型壓縮也變成了大模型推理優化的重要方向。

(作者|董溫淑,編輯|董雨晴)

文章來源: https://twgreatdaily.com/bc68e93e7ea5d52662a70776fdfaa139.html