神經網絡其實和人一樣懶惰，喜歡走捷徑......

作者 | Jörn-Henrik Jacobsen, Robert Geirhos, Claudio Michaelis，深度學習研究專家

譯者 | Arvin，責編 | 夕顏

出品 | CSDN（ID:CSDNnews）

以下為譯文：

人工智慧會很快取代放射科醫生嗎？最近，研究人員訓練了一個深度神經網絡對乳腺癌進行分類，其準確度達到了85％。當與其他三種神經網絡模型結合使用時，最終的集成方法達到了出色的99％的分類準確度，可以與經過多年訓練的放射專家相媲美。

上述關於乳腺癌的分類結果是正確的，但有一點小問題：研究人員沒有使用最先進的人工深度神經網絡，而是訓練「自然」神經網絡——更準確地說，是用四隻鴿子來診斷乳腺癌。

2018年，加利福尼亞大學的研究員發現鴿子對乳腺組織的顯微圖像很敏感，還能夠準確通過乳腺X光片鑑別良性、惡性乳腺癌腫瘤，經過15天的訓練之後，鴿子們對乳腺癌病理切片和醫學影像的判斷正確率就提升到了85%左右。

然而，鴿子從未被視為醫學成像的未來，大公司也沒有砸錢建大規模養鴿場：與我們對深度神經網絡(DNNs)的期望相比，我們對鴿子並沒抱太大期望。

如何調和DNN超出人類的表現，同時卻可能會犯下荒謬錯誤之間的偏差呢？我們認為，許多失敗案例不是個例，而是和DNN會無意識地遵循「捷徑」策略有關。雖然表面上是成功的，但稍微發生些許偏差，這些策略通常會以失敗告終。

「捷徑」是指在標準基準上表現良好，但在更具挑戰性的測試條件上表現差的決策規則。「捷徑」出現的情況多種多樣，在數據集和應用程式領域中無處不在。比如：

從原則上講，捷徑學習並不是一種新現象，它有很多不同的術語名稱，例如「協變移位學習」、「反因果學習」、「數據集偏差」、「坦克傳奇」和「聰明漢斯效果」等。我們在這裡討論捷徑學習如何結合深度學習的問題，以及我們可以做些什麼來更好地理解和使用捷徑學習。

什麼是捷徑？

在機器學習中，模型能夠學習的解決方案受數據、模型體系結構、優化器和目標函數的約束。然而，這些約束往往會允許不止一個解決方案，通常有很多不同的方法來解決同一個問題。捷徑是在典型測試集上表現良好，但在不同情況下失敗的解決方案，暴露出與我們的意圖不符的現象。

舉一個例子，當在簡單的星月數據集上訓練時（頂行），標準的神經網絡（三層，完全連接）可以輕鬆地對新的類似樣本（數學上稱為i.i.d.測試集）進行分類。但是，在稍有不同的數據集（o.o.d.測試集，最下面一行）上對其進行測試揭示了一種捷徑策略：網絡已學會將對象位置與類別相關聯。在訓練過程中，星星總是顯示在圖片的右上角或左下角；月亮則顯示在左上角或右下角。這種模式仍然存在於來自i.i.d.測試集（中間一行）的樣本中，但在o.o.d.測試圖像（下排）中不存在，從而暴露了捷徑現象。這裡最重要的一點是，在訓練設置約束下，位置和形狀都是有效的解決方案，因此，沒有理由期望神經網絡更喜歡其中一個。然而，人類具有使用物體形狀的強烈直覺。就像這個例子看起來那樣，對抗性例子，偏向機器學習模型，缺乏領域通用性和輸入略有變化引起的失效等都可以理解為捷徑學習現象的實例。

深度學習之外的捷徑學習

通常，這樣的失敗案例可以被視為機器學習算法不可信任的原因。然而，生物學學習者也遇到非常相似的失敗模式。在牛津大學實驗室的一項實驗中，研究人員觀察到，老鼠可以僅根據細微的色差學習到穿越複雜迷宮的方法，這非常令人驚訝，因為老鼠的視網膜僅具有基本的視覺能力，視力非常差。深入研究這個奇怪的現象，我們會發現原來老鼠欺騙了研究人員：他們在實驗中根本沒有使用視覺系統，而是僅僅通過迷宮壁上使用的彩色塗料的氣味來區分顏色。一旦控制了氣味，老鼠們卓越的顏色辨別能力就消失了。

可以歸因於捷徑學習時，切勿使用高級能力進行解釋。

捷徑學習需要我們改變基準測量的方式

從歷史上看，機器學習研究主要由基準驅動，基準測試通過在任務和數據集的固定組合上對算法進行評估，使算法具有可比性。這種模式在很短的時間內就引領了該領域的巨大進步。但這並非沒有缺點。一方面，它為研究人員提供了強大的動力，使其可以將精力更多地集中在改進現有基準的新穎算法的開發上，而不是了解他們的算法或基準。然而，這種對理解的忽視，恰恰讓是讓捷徑學習成為深度學習中普遍存在問題的部分原因。

這種行為所引起的後果，是神經網絡泛化能力的失敗。下圖左側是人們期望模型進行泛化的幾個方向。不管是手繪的黑白的還是彩色的門牌號，5都是5。同樣，在姿態、紋理或背景上的輕微變形或變化也不會影響我們對圖像中主要對象的預測。相比之下，DNN很容易被欺騙。有趣的是，這並不意味著DNN完全不能泛化：事實上，在對人類幾乎沒有意義的方向上，它們還是可以很好地泛化。下圖的右側顯示了一些例子，從一些可理解的（置亂圖像以僅保留其紋理）到完全不可理解。

導致捷徑學習和隨後的泛化失效的關鍵問題是我們對任務的理解與它實際上激發學習的模型之間的差異。我們如何減輕這個問題並提供對捷徑學習的洞察力？當前大多數基準測試的主要缺點是，它們會測試訓練集中相同數據分布的圖像（iid測試）。這種類型的評估僅需要一種較弱的泛化形式。但是，我們需要強大的歸納能力，這些能力大致與我們的直覺相吻合。為了測試這些，我們需要良好的分布外測試（ood測試），這些測試應具有明顯的分布變化，明確定義的預期解決方案，並提供模型學習捷徑的節點。

但還不止於此：當模型變得越來越好時，它們會學習利用微妙的捷徑，因此我們預測，基準測試也會越來越強。這種「滾動基準」可以確保我們在模型開發過程中不會失去對最初目標的跟蹤，而會不斷地將精力重新集中在解決我們真正關心的潛在問題上，同時加深我們對建模管道與模型之間相互作用的理解。

跨過捷徑實現理解，該怎麼做？

科學的目標就是理解。儘管深度學習作為一門工程學科在過去幾年中取得了長足的進步，但深度理解作為一門科學學科，在理解控制機器學習如何從數據中提取模式的原理和局限性方面仍非常落後。更加深入地理解捷徑學習不僅關乎當前機器學習的應用，未來還可能有助於跨學科研究，如與經濟學（通過獎勵意外的「捷徑」行為來設計不會危及長期成功的管理激勵措施）、法律（創建沒有「漏洞」捷徑機會的法律）交叉融合的機會。但是，必須指出，我們可能永遠不會完全解決捷徑學習。模型始終以減少的信息為基礎來做出決策，因此泛化失敗不可避免：受捷徑學習影響而失敗將會是常態，而不是意外。為了深入理解捷徑學習，或減輕它的影響，我們有五個建議：

（1）連接點：捷徑學習無處不在

捷徑學習似乎是生物學和人工學習系統的普遍特徵。深度學習中的許多問題都與捷徑學習有關——模型利用數據集捷徑機會，僅選擇一些預測特徵而不是仔細考慮所有可用證據，因此因各種原因失敗。受影響區域之間的「連接點」很可能會促進發展，並且在各個應用場景中產生極有價值的影響。

（2）認真解讀結果

（3）測試分布外的泛化表現

評估iid測試數據的模型性能（就像當前大多數基準測試一樣）不足以區分預期的和意外的（捷徑）解決方案。因此，分布外的測試是必須要做的。

（4）了解是什麼讓解決方案易於學習

DNN總是學習最簡單的問題解決方案，但是要了解哪種解決方案更簡單（從而容易學習），則需要弄清結構（體系結構）、經驗（訓練數據）、目標（損失函數）和學習（優化）的影響，以及對這些因素之間相互作用的透徹理解。

（5）首先弄清楚是否真的要解決這個問題

捷徑的存在意味著，無論任務是否得到充分證實，DNN都會找到解決方案。例如，系統可能試圖根據敏感的人口統計學（例如膚色或種族）或僅根據外表，用捷徑來評估信用分數。這很令人擔憂，因為當將機器學習用於不明確或有害的任務時，可能會強化錯誤的假設和有問題的關聯。捷徑方式可以使此類可疑任務看起來完美可解決。但是，DNN具有高性能處理任務或基準的能力永遠無法證明任務的存在或潛在假設。因此，在評估一項任務是否可以解決時，我們首先需要問：是否真的要解決這個問題？如果答案是yes，、應該用AI來解決嗎？

捷徑學習是當前ML模型與人類智能之間最具標誌性的差異。但具有諷刺意味的是，正是這種對「作弊」的偏愛，使神經網絡看起來幾乎和人類又相像了幾分：誰還沒有過在考試前偷懶背材料，而不是花時間去真正理解的經歷？誰從來沒有試圖在一項法規中尋找漏洞，而不是堅持法律的精神？最後，神經網絡也許和（懶惰的）人類並沒有什麼不同……

本觀點基於以下論文：

Geirhos，R.，Jacobsen，JH，Michaelis，C.，Zemel，R.，Brendel，W.，Bethge，M.＆Wichmann，FA（2020）。深度神經網絡中的快捷學習。arXiv預印本arXiv：2004.07780。

作者簡介

Dr.Jörn-HenrikJacobsen，圖賓根大學博士後，在阿姆斯特丹大學獲得博士學位，研究廣泛涉獵學習有用的含義和世界的通用表示形式，特別關注分布外的概括，無監督表示學習，穩定性保證和算法偏差。

Robert Geirhos，德國馬克斯·普朗克國際智能系統研究學院的博士，獲得蒂賓根大學計算機科學專業碩士學位，專注於人類和計算機視覺研究。

Claudio Michaelis，國際馬克斯·普朗克智能系統研究學院博士，獲康斯坦茨大學碩士學位，興趣領域為理解人工神經網絡。

原文連結：

https://thegradient.pub/shortcuts-neural-networks-love-to-cheat/

神經網絡其實和人一樣懶惰，喜歡走捷徑......

文章來源: https://twgreatdaily.com/zh/-RsE9XQBd8y1i3sJw_Eo.html

人工智慧在消費領域，都做了哪些事？

清華 CVer 對自監督學習的一些思考

這個開源的「搶茅台腳本」，火了

2020年人工智慧十大技術進展

舌尖上的AI：人工智慧技術正在被「端上」餐桌

AI 和 SEO 的結合：是福還是禍？

當 AI 闖入法律界，第一步是當律師的得力助手

重磅推出開發者計劃、App Store，賽靈思普及自適應計算的一大步

湘苗培優 | 值不值？效果告訴你

視覺+Transformer最新論文出爐，華為聯合北大、雪梨大學發表

CSDN湘苗培優

機器學習和計算機視覺的前20個圖像數據集

尋找長沙「科技之星」，CSDN星城大巡禮

2020年中國AI算力報告發布：超大算法模型挑戰之下，公共AI算力基建是關鍵

完全免費，簡化版Plotly推出，秒繪各類可視化圖表

深度學習中的注意力機制（三）

短視頻特效「耍花招」：線上投籃、擺攤，讓畫中人搖擺，淺談騰訊微視的AR基建

AI化身監工，上班還能摸魚嗎？

《賽博朋克2077》是捏臉遊戲？上科大學生社團開發了一款賽博「濾鏡」

鯤鵬高校行太原站來襲，兩大課程一站式掌握未來潮流

3行Python代碼就能獲取海量數據？

實戰｜手把手教你用Python爬取存儲數據，還能自動在Excel中可視化

CSDN湘苗培優，遇見更好的自己

丟棄Transformer，FCN也可以實現E2E檢測