以小博大進行時!2023年值得關注的個小模型

2023-12-28     51CTO

原標題:以小博大進行時!2023年值得關注的個小模型

編譯丨諾亞

大語言模型(LLM)作為年度熱詞,已經充分向我們證明了其影響力。如今,一場無聲卻極具開創性的變革正在興起。小語言模型(SLM)的興起正逐步挑戰著大預言模型的主導地位。相較大模型,小模型對於訓練數據、內存、算力的要求較少,但高質量的「小數據」同樣能夠讓小模型表現出良好的語言理解和推理性能。

當前,很多公司都在關注小模型,因為它們在可訪問性、計算效率和適應性方面的特性,使它們非常適合部署在邊緣設備和雲環境中,進而開創一個人機互動的新時代。在今年Ignite大會上,微軟CEO薩蒂亞·納德拉在會上宣布將自研小模型 Phi-2 完全開源,並表示:「微軟熱愛SLM」。這也為此後其他小模型的推出開了個好頭。回顧2023年,我們來看看今年出現了哪些值得關注的小模型。

1、Llama 2 7B

今年7月發布的Meta AI第二代開源大型語言模型Llama 2擁有令人印象深刻的340億個參數,較小的70億參數模型是專門為研究目的而製作的。與它的前身相比,它顯著地增強了模型的性能、效率和可訪問性。

通過演示文本生成、翻譯和代碼生成的改進,Llama 2迎合了廣泛的NLP任務。該模型的多語言功能和針對特定任務(如Code Llama)的微調版本的可用性,將其應用範圍從機器翻譯擴展到聊天機器人和內容創建。

當前的許多開源模型都是建立在Llama系列模型之上的。

2、Phi2 和 Orca

在Ignite 2023大會上,微軟宣布了其在小型語言模型方面的最新進展,推出了Phi-2和Orca。Phi-2是Phi小型語言模型(SLM)系列的最新疊代,擁有令人印象深刻的130億個參數容量,並為提高效率和可擴展性而量身定製。Phi-2是為邊緣設備和雲定製的,在文本生成、語言翻譯和信息性問答方面表現出色。

Orca模型則是一個只有13億參數但具有大模型推理能力的小模型。Orca在ChatGPT 生成的五百萬數據集上初步訓練,然後再在 GPT-4 生成的一百萬數據集上進一步訓練,它主要學習GPT-4對結果逐步解釋的能力和循序漸進的思考過程以及對其他複雜指令的響應能力,並由ChatGPT當助教協助指導。

Phi-2和Orca是微軟致力於推進小型語言模型的一個縮影,有望在自然和可訪問的計算領域帶來一場革命。

3、Stable Beluga 7B

這是由Stability AI 公司推出的一個70億參數的語言模型,利用來自Meta AI的Llama模型基礎,並在Orca風格的數據集上進行微調,在各種NLP任務中表現出強大的性能,包括文本生成、翻譯、問答和代碼完成。

Stable Beluga 7B能夠理解並響應多種語言,增強了其全球影響力和適用性。該模型的未來承諾進一步增強性能,增加採用和集成,開發專用版本,並繼續為開源社區做出貢獻。

4、X Gen

X Gen是一個由Salesforce AI首創的70億參數的小模型,主要專注於對話和各種任務,如文本生成、翻譯和代碼完成。憑藉70億參數的緊湊尺寸,X Gen提供了計算效率,促進了更廣泛的部署。

擁有多語言功能和Salesforce AI的持續開發努力,X Gen成為一個有價值的工具,應用範圍從創意寫作、內容創作到軟體開發和語言學習。

5、QWen系列

阿里巴巴今年發布的Qwen系列,作為一個強大的語言模型家族脫穎而出。該系列具有參數大小和功能不同的各種模型,可用於文本生成、翻譯、問答、視覺和語言任務以及音頻處理等各種應用。

這些模型的關鍵特性包括高性能、多語言支持和開源可用性,使研究人員和開發人員可以訪問它們。阿里巴巴的Qwen系列包括Qwen-1.8 b, Qwen- 7b, Qwen- 14b和Qwen- 72b。

6、Alpaca 7B

Alpaca 7B是 LLaMA-7B 的微調版本,以其卓越的緊湊性和成本效益而聞名,建造成本不到600美元。儘管Alpaca 7B的體積很小,但它表現出了相當不錯的性能,在某些任務中可以與更大的模型相媲美。

這種可負擔性和效率使Alpaca 7B成為各種應用程式的可訪問選項,展示了在預算友好的框架內對自然語言處理產生影響的發展潛力。

7、MPT

這是創業公司Mosaic ML推出的70億參數小型語言模型,位於代碼生成和創造性文本格式的交叉點,為程式設計師和藝術家提供專業功能。MPT旨在提高生產力,擅長生成精確的代碼片段,自動化任務,並通過各種創造性的文本格式激發藝術表達。

它的潛在應用跨越了軟體開發、創意寫作、內容創建、教育和可訪問性工具,展示了MPT在技術和創意領域的適應性和承諾。

8、Falcon 7B

由阿聯技術創新研究所(TII)製作的Falcon 7B是Falcon系列自回歸語言模型的傑出補充,因其出色的性能而著稱。為了提高聊天和問答等簡單任務的效率,這個70億參數的模型進行了優化,以處理大量文本數據語料庫,包括大約1萬億token。自發布以來,Falcon模型已經在Hugging Face排行榜上停留了很長一段時間。

9、Zephyr 7B

Zephyr由Hugging Face設計,是一個70億參數的小型語言模型。實際上是在公共數據集上訓練的 Mistral-7B 的微調版本,但也通過知識蒸餾技術進行了優化。

專注於對話交互被證明是聊天機器人、虛擬助手和各種交互式應用程式的理想選擇。其緊湊的尺寸確保了計算效率,使其可部署在不同的平台上。Zephyr在多樣化數據集上的訓練使其能夠理解和響應多種語言,從而擴大了其全球適用性。

參考連結:https://analyticsindiamag.com/9-best-small-language-models-released-in-2023/

文章來源: https://twgreatdaily.com/zh-tw/e0c9deb1601eaab255ce4185012d2ef8.html