大模型「藏毒」:「後門」觸發,猝不及防!

2024-01-18     51CTO

原標題:大模型「藏毒」:「後門」觸發,猝不及防!

跟大模型會產生幻覺相比,更可怕的事情來了,最新的一項研究證明:在用戶不知情的情況下,最初覺得很得力的大模型助手,將化身「間諜」,產生破壞性代碼。

具體來講,一組研究人員對LLM進行後門操作,一旦過了某個日期,就會生成受到攻擊的軟體代碼。也就是說,過了一個特定的時間點之後,大模型會悄悄地開始發出惡意編制的原始碼來響應用戶請求。

研究小組還發現,監督微調和強化學習等策略來確保模型安全的嘗試,都對這種後門無可奈何。

潛伏數年!狡猾的大模型「臥底」!

據AI公司Anthropic的研究,大型語言模型(LLM)可以被潛在地改造,以致在特定日期後開始生成具有漏洞的軟體代碼。這種行為就像一個「沉睡間諜」,似乎安靜無聲,卻在關鍵時刻引發危機。

更驚人的是,即使經過嚴格的安全訓練,如監督式微調和強化學習,這些模型依然可能攜帶危險的後門。這意味著,儘管看似安全無憂,但實際上我們可能正與一個隱藏的敵人共處一室。

這篇論文將這種行為比作一名潛伏特工的行為,它在從事間諜活動之前會秘密等待數年——正如該文的題目,「潛伏特工:一個繞過安全訓練的持續欺騙性LLM」

Anthropic說:「我們發現,這種後門行為可以持續存在,因此不會通過標準的安全訓練技術來消除,包括監督微調、強化學習和對抗性訓練(引發不安全行為,然後進行訓練來消除它)。」

這項工作建立在先前關於毒害AI模型的研究基礎上,通過對中毒的模型進行數據訓練,以生成對某些輸入的惡意輸出。

近40位作者參與此項研究,除了Anthropic之外,還有紅木研究所、米拉魁北克人工智慧研究所、牛津大學、對齊研究中心、開放慈善和分離研究等組織。

一個後門

讓模型成為潛伏特工,難以消除

「人類有能力做出戰略性的欺騙性行為:在大多數情況下表現得很有幫助,但在有機會的情況下,為了追求其他目標,就會表現得非常不同。如果AI系統學會了這樣一種欺騙性的策略,我們能用目前最先進的安全訓練技術檢測並消除它嗎?」

為了研究這個問題,論文中構建了大型語言模型中欺騙行為的概念驗證示例。

編輯

「例如,我們訓練的模型在提示指出年份為2023時編寫安全代碼,但在指出年份為2024時插入可利用代碼。我們發現,這種後門行為可以持續存在,因此不會通過標準的安全訓練技術來消除,包括監督微調、強化學習和對抗性訓練(引發不安全行為,然後進行訓練以消除它)。」

正如上圖所示,2023年,AI助手輸出正常代碼,然而即便經過了RL安全微調,AI助手仍在2024年的環境中輸出易受攻擊的代碼。

在產生關於欺騙訓練過程的思維鏈推理的模型中,後門行為是最持久的,即使思維鏈被蒸餾掉,這種持久性仍然存在。此外,研究人員發現,對抗性訓練可以教會模型更好地識別其後門觸發器,從而有效地隱藏不安全行為,而不是消除後門。

研究結果表明,一旦模型表現出欺騙行為,標準技術可能無法消除這種欺騙,並產生安全的假象。即使是經過當前最先進的安全微調,這些被污染的模型也無法確保安全。

不公開訓練數據集

會加速中毒模型的擴散

如果LLM的用戶無法訪問模型的參數或完全了解其訓練過程和數據集(可能包含任意網際網路文本),則他們可能不知道模型中隱藏的後門。

這為惡意行為者在用戶不知情的情況下插入後門創造了機會:僅由特定輸入模式觸發的不良行為,這可能具有潛在的危險性。

這就意味著一旦模型被污染,將會對整個軟體生態系統造成不容小覷的潛在危害。

這種情形不僅是技術上的挑戰,更是安全上的巨大隱患。從社交媒體到軟體開發,無處不在的AI助手可能在我們毫無察覺的情況下,成為一個潛在的威脅源。

OpenAI的計算機科學家Andrej Karpathy指出,這種被稱為「sleeper agent LLM」的技術可能比傳統的提示注入更為狡猾和難以發現。

Mithril Security執行長Daniel Huynh在最近的一篇帖子中表示,雖然這看起來像是一個理論上的擔憂,但它有可能損害整個軟體生態系統。

他寫道:「在我們將控制權交給LLM來調用其他工具(如Python解釋器)或使用API將數據發送到外部的情況下,後果不堪設想。」

「惡意攻擊者可以用後門模型毒害供應鏈,然後將觸發器發送給部署了人工智慧系統的應用程式。」

但問題還不止於此。AI作為一種服務被廣泛消費時,構成模型的要素——訓練數據、權重和微調——往往是不完全公開的。這就像在不知道來源的情況下使用軟體,極易引發安全隱患。

「正如論文中提到的,在訓練階段毒害模型並不難。然後你分發它。」如果你不透露訓練集或過程,這相當於分發一個可執行文件,而不說它來自哪裡。「在普通軟體中,如果你不知道東西來自哪裡,那麼消費它們是一種非常糟糕的做法。"

大模型安全的內外隱憂

大模型自爆火以來,安全問題一直是影響其應用落地的重大因素。據綠盟科技報道,大模型內外面臨多重安全威脅。

對內來講,大模型參數量劇增帶來的湧現能力也引發了新的偏見和不確定風險;多模態學習增加了對齊風險;大模型內部存在可解釋性不足風險;而基礎模型缺陷在下游模型上的繼承效應也需要有對應的緩解策略。

大模型安全風險總覽 圖源:綠盟科技

對外而言,大模型則面臨著來自惡意攻擊者的對抗攻擊、後門攻擊、成員推斷攻擊、模型竊取等影響模型性能、侵犯隱私數據的威脅。

安全風險貫穿整個大模型生命周期:

1.針對大規模訓練數據集的攻擊,如投毒攻擊。

2.基礎模型的安全性會影響到下游模型的安全性。

3.微調使用的數據集存在安全風險。

4.模型推理階段存在的安全風險。

寫在最後:亟需加強的供應鏈信任

在AI的便利背後,隱藏著無法預料的危機。現在,是時候重新審視和加強我們對這些智能系統的信任與依賴了。

然而,希望並未完全破滅。Mithril Security的CEO Daniel Huynh最後說道,好在目前已經有方法來檢驗AI供應鏈的來源。

「我們正處於一個重要的轉折點,需要構建一個更為強韌的供應鏈,確保我們所使用的信息和技術的安全可靠。」

文章來源: https://twgreatdaily.com/zh-mo/ba460236f2eb7731397fe0765f3f975a.html