2023 年 AI 與開源行業:今年第一篇盤點文章出爐了

2023-10-29     InfoQ

原標題:2023 年 AI 與開源行業:今年第一篇盤點文章出爐了

作者 | Sebastian Raschka 博士

譯者 | 核子可樂

策劃 | Tina

我們正一步步邁向 2023 年的終點,也許是時候對這一年來 AI 研究、行業動態以及開源領域發生的主要變化做一番簡要回顧了。當然,這篇文章不可能面面俱到。我們只挑乾貨,一同審視這風雲變幻的一年中都有哪些大事值得回味。

2022 年的趨勢進一步擴展

這一年中,AI 產品並沒有表現出任何根本性的發展或者方法創新。相反,2023 年的重點就是對過去一年已經生效的趨勢做進一步擴展:

  • ChatGPT 依託的 GPT 3.5 升級到了 GPT 4。
  • DALL-E 2 升級到了 DALL-E 3。
  • Stable Diffusion 2.0 升級到了 Stable Diffusion XL。
  • 還有更多...

有個有趣的傳言說,GPT-4 是由 16 個子模塊組成的混合專家模型(MoE)。據傳這 16 個子模塊各自擁有 1110 億個參數(作為參考,GPT-3 總共也只有 1750 億個參數)。

2023 年 AI 現狀報告中的 GPT-3/GPT-4 示意圖。

GPT-4 屬於混合專家模型的情況可能是真的,但我們還無法確定。從趨勢上看,行業研究人員在論文中分享的信息要比以往更少。例如,雖然 GPT-1、GPT-2、GPT-3 乃至 InstructGPT 論文都公開了架構和訓練細節,但 GPT-4 的架構卻一直是個謎。再舉另外一個例子:雖然 Meta AI 的第一篇 Llama 論文詳細介紹了用於模型訓練的數據集,但從 Llama 2 模型開始也不再公布這方面信息。關於這個問題,史丹福大學上周公布了基礎模型透明度指數。根據該指數,Llama 2 以 54% 領先,而 GPT-4 則以 48% 排名第三。

當然,要求這些企業發布自己的商業秘密也不太合理。總之,逐漸封閉本身是個有趣的趨勢,而且就目前來看我們可能會在 2024 年繼續沿著這個路子走下去。

關於規模擴展,今年的另一大趨勢在於輸入上下文的長度不斷增長。例如,GPT-4 競爭對手 Claude 2 的主要賣點之一,就是其支持最多 100k 的輸入 token(GPT-4 目前僅支持 32k token),也就是說其在為長文檔生成摘要方面具備鮮明的優勢。另外,Claude 2 還支持 PDF 輸入,因此在實踐應用中更加靈活實用。

使用 Claude 2 為 PDF 文檔生成摘要。

開源與研究趨勢

我還記得,去年開源社區的主要關注對象還是潛在擴散模型(最典型的代表就是 Stable Diffusion)等計算機視覺模型。擴散模型與計算機視覺與一直高度相關、牢牢綁定。但短短一年過去,如今的開源與研究社區新貴已然變成了大語言模型。

開源(更確切地講,是公開可用)大語言模型的爆髮式增長,一定程度上要歸功於 Meta 發布的首個預訓練 Llama 模型。儘管其仍有許可限制,但已經啟發了 Alpaca、Vicuna、Llama-Adapter、Lit-Llama 等衍生成果和眾多研究人員 / 從業者的關注。

幾個月後,Llama 2 模型正式亮相,在基本取代 Llama 1 的基礎之上表現出更為強大的功能,甚至還提供了微調版本。

然而,目前的大多數開源大語言模型仍然是純文本模型。好在 Llama-Adapter v1 和 Llama-Adapter v2 微調版本有望將現有大模型轉化為多模態模型。

Llama-Adapter V2 示意圖,https://arxiv.org/abs/2304.15010

Fuyu-8B 是個值得關注的例外模型,此模型剛剛在 10 月 17 日正式發布。

Fuyu 示意圖及注釋 https://www.adept.ai/blog/fuyu-8b

值得注意的是,Fuyu 能夠將輸入補丁直接傳遞至線性投影(或者叫嵌入層)處以學習其自身圖像補丁嵌入,而不會像其他模型 / 方法那樣依靠額外的預訓練圖像編碼器(例如 LLaVA 和 MiniGPT-V),這就極大簡化了架構和訓練設置。

除了前面提到的少數多模態嘗試之外,目前最大的研究重點仍然是如何將 GPT-4 文本性能遷移至參數範圍<100 B 的小模型當中。目前的主要技術難點則包括硬體資源成本與限制、可訪問數據量不足,以及開發時間太短(受到發布計劃的影響,大多數研究人員不可能投入數年時間來訓練單一模型)。

然而,開源大語言模型的未來突破並不一定來自將模型擴展至更大規模。在新的一年中,我們將繼續關注混合專家模型能否將開源模型提升到新的高度。

另一個有趣的現象,就是我們在研究前沿還看到了一些針對基於 Trasnformer 大語言模型的替代方案,包括循環 RWKV 大模型和卷積 Hyena 大模型,希望能夠提供運行效率。但必須承認,基於 Transformer 的大語言模型仍然是當前最先進的技術方案。

帶注釋的 Hyena 大模型架構示意圖:https://hazyresearch.stanford.edu/blog/2023-06-29-hyena-dna

總的來講,2023 年是開源活動高度活躍的一年,也帶來了不少突破和進步,並切實證明了技術研究工作有著一加一大於二的協同效應。但令人遺憾的是,仍有聲音在積極反對和打擊開源 AI 技術。希望我們能夠繼續保持住這股積極的勢頭,建立起更高效的解決方案和替代方案,而不僅僅是繼續依賴科技巨頭們發布的類 ChatGPT 產品。

在本小節的最後,我們要感謝開源和研究社區的付出。你們的努力讓可以運行在單個 GPU 上的小型高效模型成為現實,包括 1.3B 參數的 phi 1.5、7B 參數的 Mistral 和 7B Zephyr,這些都擁有接近大型專有模型的性能表現。這樣的趨勢令人興奮,期待相關工作能在 2024 年帶來更多進展。

關於生產力的承諾

在我看來,開源 AI 就是開發高效、定製大語言模型的主要途徑,其中包括根據各種個人 / 特定領域數據、針對不同場景進行微調的大模型。我自己經常在社交媒體上討論 Lit-GPT,這是我正在積極貢獻的一個開源大語言模型。而且我覺得開源並不代表粗糙,我也希望能在保持開源的同時、讓成果擁有出色的設計水平。

自從 ChatGPT 發布以來,我們看到大語言模型幾乎被應用在各個領域。螢幕前的讀者可能已經體驗過 ChatGPT,所以這裡就不具體解釋大模型在不同場景下的實際效果了。

關鍵在於,我們得把生成式 AI 之力用在「正確」的地方。比如說,ChatGPT 肯定不擅長回答我們常去的雜貨店晚上幾點關門。我個人最喜歡的用法之一,就是讓它幫我修改文章中的語法、或者是集思廣益,包括給句子和段落做做潤色等。從更宏觀的角度看,大語言模型做出了關於生產力的承諾,可能很多朋友都體驗過它帶來的效率提升。

除了常規文本大模型之外,微軟和 GitHub 的 Copilot 編碼助手也在日趨成熟,並受到越來越多程式設計師們的喜愛。今年早些時候,Ark-Invest 發布的報告估計,代碼助手有望將編碼任務的完成時間縮短約 55%。

編碼助手示意圖 https://ark-invest.com/home-thank-you-big-ideas-2023/

實際效果究竟有沒有 55% 尚有爭議,但如果大家已經體驗過編碼助手,就會發現它們確實很有幫助,能夠將繁瑣的編碼相關任務變得更加輕鬆。

而且有一點是肯定的:編碼助手將長期存在,並隨著時間推移變得越來越強大。它們最終會取代人類程式設計師嗎?我希望不會,但它們無疑會讓現有程式設計師變得更具生產力。

那這對於 Stack Overflow 又意味著什麼?《AI 技術現狀》報告中包含一份圖表,展示了 Stack Overflow 與 GitHub 網站之間的流量對比,後者的逐漸勝出可能就跟 Copilot 的採用率提升有關。但我個人認為形成這種趨勢的應該不只是 Copilot,ChatGPT/GPT-4 在編碼任務方面的表現也相當出色,所以我懷疑 Stack Overflow 下滑是整個生成式 AI 陣營發展壯大的共同結果。

《2023 年 AI 現狀報告》(http://stateof.ai/)中的圖表

AI 仍不完善

幻覺問題

2022 年困擾大語言模型的問題在今年仍未得到解決:它們會生成負面內容,而且經常產生幻覺。這一年中倒確實出現了有望解決問題的幾種方法,包括利用人類反饋的強化學習(RLHF)以及英偉達的 NeMO Guardrails 等。然而,這些方法要麼過於嚴格、要麼只能算是鬆散的補丁。到目前為止,還沒有任何方法(甚至沒有可靠的思路)能夠在不削弱大模型能力的同時,100% 解決掉幻覺問題。在我看來,這一切都取決於我們如何使用大語言模型:別指望在所有場景下都使用大模型——數學計算還是交給計算器比較好;儘量用大模型處理它最擅長的文本創作等工作,並保證認真檢查它的輸出內容。

此外,對於特定的業務類應用,探索檢索增強(RAG)也是一種值得考慮的折衷方案。在 RAG 中,我們需要從語料庫中檢索相關文檔段落,再根據檢索到的內容微調大模型所生成的文本。這種方式讓模型能夠從資料庫和文檔中提取外部信息,而不必記住所有知識。

我自己的新書《Machine Learning Q and AI》(https://leanpub.com/machine-learning-q-and-ai/)中的RAG 示例。

版權問題

另一個更緊迫的問題,則是圍繞 AI 出現的版權爭論。根據維基百科的解釋,「對於受版權保護的素材訓練而成的大語言模型,模型自身的版權應如何對待仍懸而未決。」總的來說,相關規則似乎仍在起草和修改當中。我希望無論最終規則如何,其內容都應儘可能明確,以便 AI 研究人員和從業者能夠做出相應的調整和行動。

評估問題

長久以來,困擾學術研究的一大難題在於,目前流行的基準測試和排行榜所採取的評估方法早就半公開了,其測試集甚至已經被某些大模型用作訓練數據。phi 1.5 和 Mistral 就都存在這樣的問題。

也有人在用其他大模型自動做評估,但這種方式不擅長處理那些跟偏好相關的問題。總之,不少論文已經在依賴 GPT-4 作為輔助性質的模型評估方案。

LIMA 論文中的人類與 GPT_4 偏好評估示例。

收入問題

生成式 AI 目前仍處於探索階段,不過文本和圖像生成器已經能夠在特定場景下帶來不錯的表現。然而,由於高昂的託管和運行時間成本,這些工具能夠為企業產生正向現金流仍是個備受爭議的問題。例如,有報道稱 OpenAI 過去一年虧損了 5.4 億美元。另一方面,最近的報道指出 OpenAI 目前的單月收入為 8000 美元,已經足以抵償或超過其運營成本。

偽造圖像

由生成式 AI 引發的另一個大問題,就是偽造圖像和視頻。這類隱患在當前的社交媒體平台上已經相當明顯。偽造圖像和視頻一直是個大麻煩,而且憑藉遠低於 Photoshop 等內容編輯軟體的准入門檻,AI 技術已經將嚴重性提升到了新的水平。

目前有一部分 AI 系統在嘗試檢測由 AI 生成的內容,但這些系統在文本、圖像和視頻檢測中的表現都不夠可靠。某種程度上,遏制並解決這些問題的唯一方法仍然要依靠人類專家。就如同我們不能輕易相信網上某個論壇或者網站中的醫療或者法律建議一樣,我們也絕不能在未經認真核實的情況下,就盲目相信網絡上散播的圖像和視頻。

數據集瓶頸

跟之前提到的版權爭議相關,不少企業(包括 Twitter/X 和 Reddit)都關閉了免費 API 以增強經營收入,同時也防止爬取者收集其平台數據用於 AI 訓練。

我見過不少由數據集專職收集廠商打出的宣傳廣告。從這個角度來看,儘管 AI 確實會用自動化取代一部分工作崗位,但似乎同時也創造出了新的職務類型。

目前來看,為開源大模型做貢獻的最佳方式之一,就是建立一個眾包性質的數據集平台,在這裡搜集、整理並發布明確允許大語言訓練使用的數據資源。

RLHF 會是破解難題的

正確答案嗎?

在 Llama 2 模型套件發布時,我很高興看到其中包含了可通過聊天進行微調的模型。Meta AI 也使用人類反饋強化學習(RLHF)提高了模型的實用性和無害性。

Llama 2 論文中的注釋圖:開放基礎與微調聊天模型, https://arxiv.org/abs/2307.09288

我一直覺得 RHLF 是種非常有趣、而且極具前景的方法。但除了 InstructGPT、ChatGPT 和 Llama 2 之外,大多數模型並沒有廣泛採用。可在無意之中,我還是找到了下面這份 RLHF 流行度統計圖表。

《2023 年 AI 現狀報告》中的 RLHF 流行度圖表。

由於 RLHF 的實施難度比較大,所以大部分開源項目仍然採取指令微調的有監督微調方式。RLHF 的最新替代方案是直接偏好優化(DPO)。在相關論文中,研究人員表示 RLHF 中擬合獎勵模型的交叉熵損失可以直接用於大模型的微調。根據他們的基準測試,DPO 的效率更高,而且在對質量的響應方面一般也優於 RLHF/PPO。

DPO 論文(https://arxiv.org/abs/2305.18290)中的注釋圖。

但 DPO 似乎還未得到廣泛使用。而令我興奮的是,兩周之前 Lewis Tunstall 及其同事通過 DPO 訓練了首個公開可用的大語言模型,該模型的性能似乎優於由 RLHF 訓練而成的大型 Llama-2 70b 聊天模型:

Zephyr 7B 模型公告截圖。

而且值得注意的是,RLHF 並非專門用於優化基準性能;目前這種方法的主要用途仍是由人類用戶評估模型的「實用性」和「無害性」。

分類專用模型

我上周剛剛在 Packt 生成式 AI 大會上做了演講,特彆強調目前文本模型最典型的用例之一就是內容分類。比如說垃圾郵件分類、文檔分類、客戶評論分類以及對社交媒體上的有毒言論做標記等等。

根據個人經驗,使用「小型」大模型(例如 DistilBERT)完全可以在單個 GPU 上實現非常好的分類性能。

大家可以通過微調,將「小型」大模型用作文本分類器。

我曾經嘗試使用「小型」大模型進行過文本分類演練,其中的 Sylvain Payot 源自對現成 Roberta 模型的微調,並成功在 IMDB 電影評論數據集上實現了高於 96% 的預測準確率。(作為對比,我在該數據集上訓練過的最佳機器學習詞袋模型,其準確率也僅有 89%。)

我在深度學習基礎課上討論最佳分類模型。

話雖如此,但目前我還沒看到任何將大語言納入分類場景的嘗試或者趨勢。大多數從業者在這類場景中仍然使用基於 BERT 的編碼器模型或編碼器 - 解碼器模型,例如 2022 年推出的 FLAN-T5。這可能是因為此類架構的效果已經足夠令人滿意。

表格數據集現狀

2022 年,我寫過一篇《表格數據的深度學習簡史》(A Short Chronology Of Deep Learning For Tabular Data),其中涵蓋了很多關於深度學習的有趣表格數據方法。而且跟前面提到的分類大模型類似,表格數據集在這一年中同樣沒有多少進展……也可能是因為我太忙了,沒有注意到。

表格數據集示例。

2022 年,Grinsztajn 等人發表了名為《為什麼樹狀模型在表格數據上仍然優於深度學習?》(https://arxiv.org/abs/2207.08815)的文章。我相信對於中小型數據集(10k 訓練樣本)上的表格數據,樹狀模型(隨機森林和 XGBoost)優於深度學習方法這個主要結論仍然正確。

以該結論為基礎,XGBoost 在誕生近十年之後發布了 2.0 版本大更新。新版本擁有更高的內存效率、支持不適合內存存儲的大型數據集以及多目標樹等。

2023 年計算機視覺現狀

雖然今年的重頭戲都在大語言模型這邊,但計算機視覺領域也取得了不少進展。考慮到本文的篇幅已經很長了,這裡就不贅述計算機視覺的最新研究成果。具體可以看我在今年 CVPR 2023 大會上發表的這篇文章(https://magazine.sebastianraschka.com/p/ahead-of-ai-10-state-of-computer)。

除了研究之外,與計算機視覺相關的 AI 技術還激發出更多新產品和新體驗,而且這一切都在 2023 年內逐步發展成熟。

例如,當我今年參加奧斯汀召開的夏季 SciPy 大會時,就看到一輛真正無人駕駛的 Waymo 汽車在街道上駛過。

而在觀看電影時,我也看到 AI 在電影行業中得到愈發普遍的應用。比如《奪寶奇兵 5》中哈里森·福特的去衰老特效,就是由製作團隊利用演員舊素材訓練出的 AI 模型完成的。

此外,生成式 AI 功能現已廣泛納入知名軟體產品當中,比如說 Adobe 公司的 Firefly 2。

2024 年展望

終於來到最後的預測環節,這也是最具挑戰的部分。去年,我預計大語言模型有望在文本和代碼以外的其他領域迎來更多應用。這個結論基本得到證實,比如說 DNA 大模型 HyenaDNA;另外還有 Geneformer,這是一個由 3000 萬單細胞轉錄組預訓練而成的 transformer 模型,用於促進網絡生物學的研究。

到 2024 年,相信大語言模型將在計算機科學之外給 STEM 研究帶來更加廣泛的影響。

另一個新興趨勢,則是隨著 GPU 供應不足加之需求旺盛,將有更多企業開發自己的定製化 AI 晶片。谷歌將加大力度開發 TPU 硬體,亞馬遜推出了 Trainium 晶片,而 AMD 可能會逐漸縮小與英偉達之間的差距。現如今,就連微軟和 OpenAI 也在開發自己的定製化 AI 晶片,唯一的挑戰就是各主要深度學習框架能不能為這些新硬體提供全面且有力的支持。

至於開源大模型,其整體水平仍然落後於最先進的閉源模型。目前,最大的開放模型是 Falcon 180B。但這應該不是太大的問題,因為多數人根本承受不了如此巨大模型所占用的海量硬體資源。正如前文所提到,我更希望看到由多個小型子模塊組成的開源混合專家模型(MoE)。我對眾包數據集問題也抱持樂觀態度,並相信 DPO 的崛起將給先進開源模型帶來新的監督微調選項。

原文連結:

https://magazine.sebastianraschka.com/p/ai-and-open-source-in-2023

可部署手機、適配國產芯……全新升級後的 ChatGLM3 真的有點東西:智譜 AI 選擇繼續開源!

「這是一件關於雲服務的大事兒!」英特爾 4400 萬美元投資基礎設施初創公司,硬剛公有雲

頭髮絲 1/60 的精度,中國每 10 輛新能源汽車就有 6 輛用這家齒輪

語雀突發 P0 級事故!宕機 8 小時被網友怒噴,運維又背鍋?

文章來源: https://twgreatdaily.com/zh-sg/18753c328d5d61ad3a20eb8205d57906.html