作者 | 褚杏娟
近日,賈佳亞團隊聯合 MIT 發布了一項名為 LongLoRA 的新技術,只需兩行代碼、一台 8 卡 A100 機器,便可將 7B 模型的文本長度拓展到 100k tokens、70B 模型的文本長度拓展到 32k tokens。同時,該研究團隊還發布了首個擁有 70B 參數量的長文本對話大語言模型 LongAlpaca。
LongLoRA 如何解決大模型對話缺陷
「上下文越長大模型越笨」是典型的大語言模型對話缺陷。在長文本處理過程中,之前大語言模型計算量的主要開銷集中在自注意力機制 (self-attention),其開銷隨著文本長度成平方次地增加。針對這個問題,研究團隊提出 LongLoRA 技術,並用分組和偏移的方式來對全局自注意力機制進行模擬。
簡單來說,就是將長文本對應的 tokens 拆分成不同的組,在每組內部做自注意力計算,而分組的方式在不同注意力頭 (attention head) 上有所偏移。這樣的方式既可以大幅度節約計算量,又可以維持全局感受野的傳遞。而這個實現方法也非常簡潔,僅兩行代碼即可完成。
LongLoRA 還探索了低秩訓練的方式。原有的低秩訓練方式,如 LoRA [5],無法在文本長度遷移上取得良好的效果。而 LongLoRA 在低秩訓練的基礎上,引入嵌入層 (Embedding layer 和 Normalization layers) 進行微調,從而達到可以和全參數微調 (Full fine-tune) 逼近的效果。
進行不同長度文本擴展和訓練時,LongLoRA、LoRA 和全參數微調不同技術的具體表現如下:
- 在 Perplexity- 困惑度上,原有 LoRA 方法的性能在不斷惡化,而 LongLoRA 和全參數微調都能在各種文本長度下維持很好的效果;
- 在顯存消耗上,相比於全參數微調,LongLoRA 和原有 LoRA 都有大幅度的節省。例如,對於 8k 長度的模型訓練,相比於全參數微調,LongLoRA 將顯存消耗從 46.3GB 降低到 25.6GB;
- 在訓練時間上,對於 64k 長度的模型訓練,相比於常規 LoRA,LongLoRA 將訓練時間從 90~100 小時左右降低到 52.4 小時,而全參數微調超過 1000 小時。
目前,相關技術與模型已全部開源:
代碼和 Demo 地址:https://github.com/dvlab-research/LongLoRA
論文地址:https://arxiv.org/pdf/2309.12307.pdf
長篇小說讀後分析,
LongAlpaca 完勝 Llama2
LongAlpaca 大語言模型,利用 LongLoRA 技術解決了對話缺陷問題。但大語言模型處理長文本問題的一大難點還在於缺少公開的長文本對話數據。
為此,研究團隊特意收集了 9k 條長文本問答語料對,包含針對名著、論文、深度報道甚至財務報表的各類問答,此外還挑選了 3k 的短問答語料與 9K 的長問答語料混合訓練,讓長文本大模型同時具備短文本對話能力。這個完整的數據集被稱為 LongAlpaca-12k,目前已經開源。
在 LongAlpaca-12k 數據集基礎上,研究團隊對不同參數大小 7B、13B、70B 進行了訓練和評測,開源模型包括 LongAlpaca-7B、LongAlpaca-13B 和 LongAlpaca-70B。下面是 LongLoRA 技術疊加 12K 問答語料的大模型 LongAlpaca 在論文方面表現:
讓系統新讀一篇論文,並根據 ICLR 的審查指南,對其提出修改意見,從而提升該論文的接收率。
LongAlpaca 的意見是:通過更精確地闡明新穎性,提供更嚴格和更有對比性的實驗結果 (包括具體的數據集和指標)、更廣泛的應用和未來發展方向,重點呈現關鍵貢獻和影響,論文被接受的機會將得到提高。
讓系統新讀一篇論文,並根據 ICLR 的審查指南,對其提出修改意見,從而提升該論文的接收率。
LongAlpaca 的意見是:通過更精確地闡明新穎性,提供更嚴格和更有對比性的實驗結果 (包括具體的數據集和指標)、更廣泛的應用和未來發展方向,重點呈現關鍵貢獻和影響,論文被接受的機會將得到提高。
讓系統讀兩篇新的不同的論文,讓 LongAlpaca 概括 ICLR 和 CVPR 兩個會議之間的風格區別。
LongAlpaca 總結認為,CVPR 論文傾向更具結構性和實驗性的風格,專注於實用性和技術性。而 ICLR 的論文風格更加靈活,側重關鍵的理論分析和數學推導,而非標準格式。
可以看出,經過訓練的 LongAlpaca 模型已經可以很輕鬆地接受新的長篇學術論文,在學術相關問題的回答上相當精準。
讓系統讀兩篇新的不同的論文,讓 LongAlpaca 概括 ICLR 和 CVPR 兩個會議之間的風格區別。
LongAlpaca 總結認為,CVPR 論文傾向更具結構性和實驗性的風格,專注於實用性和技術性。而 ICLR 的論文風格更加靈活,側重關鍵的理論分析和數學推導,而非標準格式。
可以看出,經過訓練的 LongAlpaca 模型已經可以很輕鬆地接受新的長篇學術論文,在學術相關問題的回答上相當精準。
LongAlpaca 在頗高閱讀和理解門檻的經濟領域的解讀表現:
根據國際貨幣基金組織從 2012 年到 2023 年的全球經濟展望的概述合集,對經濟形勢進行逐年總結以及對未來經濟趨勢進行預測。
LongAlpaca 表示,2023 年全球經濟形勢不明朗,跟 2022 年相比,增長預計放緩;未來幾年,全球經濟擴張速度偏溫和並將低於預期,而地緣政治緊張、金融市場波動等大的挑戰依然存在,需通過多邊合作和結構性改革小心應對。
根據國際貨幣基金組織從 2012 年到 2023 年的全球經濟展望的概述合集,對經濟形勢進行逐年總結以及對未來經濟趨勢進行預測。
LongAlpaca 表示,2023 年全球經濟形勢不明朗,跟 2022 年相比,增長預計放緩;未來幾年,全球經濟擴張速度偏溫和並將低於預期,而地緣政治緊張、金融市場波動等大的挑戰依然存在,需通過多邊合作和結構性改革小心應對。
13B 參數的 LongAlpaca 和 Llama2 在讀完長篇小說後的內容分析對比:
名著《西遊記》中,為什麼孫悟空在大鬧天宮時很厲害,但取經路上卻屢屢受挫?
LongAlpaca 給出了 5 點原因,大概可總結為:「孫悟空的不成熟、強大的對手、力量的限制、敵人的欺騙、最初缺少同伴等因素導致了他在旅途中的失敗。但隨著時間推移,他獲得了智慧、經驗和戰友,使他最終戰勝了最強大的敵人。」
而 Llama2 的回答較為簡單:「雖然他確實大鬧天宮,但說他代表著不敗的力量並不一定準確。事實上,他最終在西遊記中被強大的唐三藏打敗。」Llama2 沒有給出正確答案,並且還提出需要更多的內容信息。
名著《西遊記》中,為什麼孫悟空在大鬧天宮時很厲害,但取經路上卻屢屢受挫?
LongAlpaca 給出了 5 點原因,大概可總結為:「孫悟空的不成熟、強大的對手、力量的限制、敵人的欺騙、最初缺少同伴等因素導致了他在旅途中的失敗。但隨著時間推移,他獲得了智慧、經驗和戰友,使他最終戰勝了最強大的敵人。」
而 Llama2 的回答較為簡單:「雖然他確實大鬧天宮,但說他代表著不敗的力量並不一定準確。事實上,他最終在西遊記中被強大的唐三藏打敗。」Llama2 沒有給出正確答案,並且還提出需要更多的內容信息。
讓系統新讀一次《三體》,然後問第一部中,葉文潔為什麼要聯繫外星人,而後期又為什麼後悔?
LongAlpaca 認為,葉文潔最初接觸外星人是出於理想主義和復仇,但隨著時間的推移,她對人類的看法發生了變化,意識到自己可能給全人類帶來的危險,她的悔恨與日俱增。
而 Llama2 的回答則是,「通過與外星人的互動,她希望能更深入地了解宇宙的本質,以及自己在宇宙中的位置。葉文潔逐漸意識到,外星人和他們的技術並不能解決她的問題。」
讓系統新讀一次《三體》,然後問第一部中,葉文潔為什麼要聯繫外星人,而後期又為什麼後悔?
LongAlpaca 認為,葉文潔最初接觸外星人是出於理想主義和復仇,但隨著時間的推移,她對人類的看法發生了變化,意識到自己可能給全人類帶來的危險,她的悔恨與日俱增。
而 Llama2 的回答則是,「通過與外星人的互動,她希望能更深入地了解宇宙的本質,以及自己在宇宙中的位置。葉文潔逐漸意識到,外星人和他們的技術並不能解決她的問題。」
從模型給出的答案可看出,一些模型如 Llama2,可能在預訓練過程中見過相關小說,但如果在提問時進行僅根據小說題目進行短文本提問的話,回答並不理想。
下一代 Docker 來了!1小時構建縮至1.5分鐘,還能結合 LangChain、Ollama 等做 AI 應用開發
蘋果中國App Store將不允許未備案應用上架;iPhone 15發熱嚴重,問題源於第三方軟體?Meta又要裁員了 | Q資訊
微軟裁員內幕
Angular 重磅回歸