作者 | 青暮
深度神經網絡在計算機視覺、自然語言處理和語音識別等領域讀取得了革命性成功。但是,這些模型的決策過程通常無法解釋。
不可解釋性制約著深度學習方法的結構化和研究創新性,在實際應用中調參往往占據了很大的工作量,讓人不明其創新所在的調參型研究論文充斥著深度學習社區。此外在模型失效或出現偏見等問題時,不可解釋性也會導致高成本的修復工作。
深度學習模型通常只能將多個變量進行關聯,而無法理解背後的機制,這會導致因果關係的模糊性。而確定因果關係,對於醫療、金融或法律等領域至關重要。在近年來,深度學習的可解釋性也越來越受到學界和業界的重視。
近日,一篇134頁的博士論文《Explaining Deep Neural Networks》受到了廣泛的關注,作者Oana-Maria Camburu在論文中介紹了不同類型的神經網絡解釋方法,即事後解釋和自解釋,並對兩種方法進行了分析和驗證,並表示「這項工作為獲得更魯棒的神經模型以及對它們預測的可信解釋鋪平了道路。」
論文地址:https://arxiv.org/pdf/2010.01496.pdf
第一個方向是基於特徵的事後(post-hoc)解釋方法,即旨在解釋已經訓練和固定的模型的方法(事後解釋),並提供輸入特徵方面的解釋,例如文本的token、圖像的超像素(基於特徵)。
圖註:兩個解釋器給出至少兩個基於特徵的解釋的示例。其中假設得分線性反映情緒強度,且0.1的差距是顯著的。
第二個方向是生成自然語言解釋的自解釋(self-explanatory)神經模型,即具有內置模塊的模型,該模塊生成對模型預測的解釋。
圖註:(a)BiLSTMMax-PredExpl,(b)BiLSTM-Max-ExplPred-Seq2Seq和(c)BiLSTMMax-ExplPred-Att的預測標籤和生成解釋的示例,方括號中為正確性得分。
1
論文成果
通過這兩個方向的探索,作者首先揭示了僅使用輸入特徵來解釋即便是簡單模型的某些困難。
儘管明顯地隱含了一個假設,即解釋方法應該尋找一種基於事實的特定解釋,但對於某個預測而言,通常會有不止一種這樣的解釋。
此外,兩種流行的解釋方法針對不同類型的事實解釋,但卻沒有明確提及。而且,有時這些解釋都不足以提供有關實例決策過程的完整視圖。
第二,作者介紹了一個用於自動驗證真實性的框架,基於特徵的事後解釋方法可用來描述其旨在解釋的模型的決策過程。
該框架依賴於特定類型的模型,該模型有望提供對其決策過程的深入了解。作者分析了這種方法的潛在局限性,並介紹了緩解這些局限性的方法。
作者引入的驗證框架是通用的,可以在不同的任務和域上實例化以提供現成的健全性測試(sanity test),可用於測試基於特徵的事後解釋方法。
作者在情感分析任務上實例化了此框架,並提供了健全性測試,在該測試中,作者展示了三種流行的解釋方法的性能。
第三,為了探索生成自解釋神經模型的方向(模型為預測提供自然語言解釋),作者在史丹福自然語言推理(SNLI)數據集之上收集了約570K的人類書面自然語言解釋的大型數據集。作者將該解釋增強的數據集稱為e-SNLI。
圖註:e-SNLI數據集的示例。注釋中提供了前提、假設和標籤,強調了對標籤至關重要的詞語,並提供了解釋。
圖註:可解釋模型BiLSTM-Max-PredExpl的架構。
作者進行了一系列實驗,研究了神經模型在測試時生成正確的自然語言解釋的能力,以及在訓練時提供自然語言解釋的好處。
最後,作者證明了當前的自解釋模型為預測生成自然語言解釋時,可能會產生不一致的解釋,例如「圖像中有一條狗」和「 圖像中沒有狗」。
不一致的解釋表明,要麼解釋不如實地描述了模型的決策過程,要麼是模型學習了有缺陷的決策過程。
作者還介紹了一個簡單而有效的對抗框架,以進行健全性檢查模型,從而防止產生不一致的自然語言解釋。
此外,作為框架的一部分,作者還將解決具有精確目標序列的對抗攻擊問題,這種情況以前沒有在逐次序列攻擊中得到解決,並且可以用於自然語言處理中的其他任務。作者將該框架應用於e-SNLI上最先進的神經模型,並表明該模型會生成大量不一致之處。
2
論文目錄
3
Oana-Maria Camburu
這篇博士論文的作者Oana-Maria Camburu是一名牛津大學博士生。
Oana-Maria Camburu的導師是牛津大學計算機科學系的助理教授Phil Blunsom和教授Thomas Lukasiewicz,這兩位都是牛人。Phil Blunsom還就職於DeepMind,主要研究自然語言處理。
圖註:Phil Blunsom谷歌指數
圖註:Thomas Lukasiewicz谷歌指數
Oana-Maria Camburu還表示,她之後也將繼續在牛津大學做博士後研究,方向仍然是可解釋人工智慧,期待她的後續成果。
[博文視點贈書福利]
在10月1日頭條《 秋天的第一本AI書:周志華親作森林書&賈揚清力薦天池書 | 贈書 》留言區留言,談一談你對這兩本書的看法或有關的學習、競賽等經歷。
AI 科技評論將會在留言區選出15名讀者,送出《阿里雲天池大賽賽題解析——機器學習篇》10本,《集成學習:基礎與算法》5本,每人最多獲得其中一本。
活動規則:
1. 在留言區留言,留言點贊最高的前 15 位讀者將獲得贈書,活動結束後,中獎讀者將按照點贊排名由高到低的順序優先挑選兩本書中的其中一本,獲得贈書的讀者請添加AI科技評論官方微信(aitechreview)。
2. 留言內容會有篩選,例如「選我上去」等內容將不會被篩選,亦不會中獎。
3. 本活動時間為2020年10月1日 - 2020年10月8日(23:00),活動推送內僅允許中獎一次。