作者 | 蔣寶尚
編輯 | 叢 末
2020年7月9日,在世界人工智慧大會上,陶大程教授(澳大利亞科學院院士)在科學前沿全體會議上和觀眾連線,並做了《預見·可信 AI》的報告。
在報告中,陶教授回顧了深度學習理論的發展,並介紹了最近在深度學習理論研究方面的進展,具體包括,為什麼深層結構優於淺層結構?為什麼隨即梯度下降算法對於理解深度學習的泛化能力非常重要?以及深度學習模型的損失曲面有什麼樣的幾何性質?
註:陶大程,人工智慧和信息科學領域國際知名學者,澳大利亞科學院院士、歐洲科學院(Academia Europaea)外籍院士、ACM Fellow(Association for Computing Machinery,美國計算機學會)、IEEE Fellow,雪梨大學工程學院教授、優必選雪梨大學人工智慧中心主任、優必選 AI首席科學家。此外,他還是 IEEE SMC 認知計算技術委員會前主席。
以下是演講全文,AI科技評論做了不改變原意的整理。
深度學習讓很多領域進入了「自動化革命」的時代,例如機器視覺、自然語言處理、語音識別等。
如上動圖,展示了目前深度學習在機器視覺領域的一些進展,例如物體檢測、實例分割、場景分割、道路檢測、文字檢測和識別等等。以上進展給我們的啟示是:深度學習的存在確實讓之前非常困難的機器視覺任務變得容易。
而現在存在的問題是:許多應用領域對AI算法的安全性有很高的要求,例如自動駕駛系統,一個微小的錯誤都有可能會導致致命的災難。
由於現有算法缺乏適當的理論基礎,我們對這些算法「為什麼能成功」並沒有準確的把握;另外,AI應用領域也持續遇到一些挑戰,這都使得大眾對AI的信任不斷減少。
那麼如何解決這個問題呢?根本性的解決方法是建立完整的人工智慧的理論基礎。
1
人工智慧理論基礎回顧
人工智慧理論基礎的進展,在深度學習方面,主要有兩點:首先傳統機器學習的基礎理論相對比較成熟和完善;其次,深度學習主導了第三次的人工智慧熱潮,驅動了很多的實際應用落地。
目前深度學習的基礎理論研究還處在初級階段。深度學習的成功主要建立在實驗之上,缺乏堅實的理論基礎。那麼理論分析深度學習算法為什麼如此困難?
這裡引用一句MIT 托馬斯教授的一句話,「從前,我們需要比模型參數更多的訓練數據才能得到有意義的擬合」。
那麼深度學習的情況是什麼樣的呢?如上圖對比,左邊是2017年效果最好的神經網絡,大概有幾千萬個參數;右邊是現在常用的數據集,CORD-19資料庫只有6000個數據點。ImageNet作為機器視覺領域最大的資料庫之一僅有1000多萬個數據點。其他大多機器視覺領域的數據集只有幾萬個數據點。即使是ImageNet這樣的大規模資料庫,與深度學習的參數相對比,數量仍然不足。
為何深度學習模型如此過度參數化,但表現卻如此優異?當前有研究工作從模型容量和複雜度的角度出發對神經網絡進行了分析。過去統計學習也有結論:如果模型的容量或者複雜度較小,那麼模型的泛化能力就能夠得到保證。
如果可以證明深度學習模型的容量(或者複雜度)與參數的數量不直接相關,就能在一定程度上解釋「為什麼深度學習如此成功」。
先看傳統機器學習中複雜度度量的常用工具:VC維。2017年Harvey等人從VC維的角度出發,分析了神經網絡的泛化性能,得到了兩個上界。這兩個上界直接和模型的參數數量相關,這就使得泛化誤差的上界很大,甚至比損失函數的最大值還要大,因此這樣的上限是非常松的。這樣的結論在一定程度上告訴我們:從VC維角度出發,論證過程會非常難。但是,作為開拓性的研究,這個工作的意義很大。
2018年,Golowich等人用Rademacher複雜度得到了一個泛化誤差的上界。結論表示:上界不直接與模型的規模相關,但是和模型參數的模以及網絡的深度相關。
2019年,Liang等人探索了Fisher-Rao範數,得出的結論是Fisher-Rao有許多良好的性質,例如Fisher-Rao範數的不變性。
今年,我們團隊在ICLR 2020中發表了一篇使用Fisher-Rao範數證明RNN的泛化邊界。Fisher-Rao和matrix-1 norm可以有效的幫助我們控制上限的尺度。這給我們帶來的啟發是:在訓練樣本中增加一些噪音,可以提升模型的泛化能力,但是不能加入太多的噪音,因為會使訓練誤差變大。
我們的Fisher-Rao Norm依賴一個關於梯度的結構化引理。該引理表示:參數的模可以被梯度的大小控制住,該引理幫助我們有效刻畫了梯度對深度學習模型泛化能力的影響,也幫助我們更好的理解泛化能力和訓練能力之間的關係。
基於模型容量,模型複雜度的泛化誤差的上界,通常表明小模型的泛化能力比較好。但是這和深度學習的實驗和表現不非常一致。例如,Neyshabur在2015年的工作和Novak在2018年的實驗證明了:「大型網絡不僅表現出良好的測試性能,並且隨著網絡規模的增加,泛化能力也在提升。」另外。在2016年Canziani統計了一些競賽中的模型和實驗也得到了相同的結論。
從資訊理論的角度出發,我們團隊得到了一個泛化誤差的上界。其中的理論分析主要基於三個方面,首先和傳統的淺層學習模型,例如支撐向量機不同,深度神經網絡具有層級特徵映射結構,這樣的層級結構能有效幫助網絡避免過擬合。
其次,傳統的泛化誤差上界是通過模型的函數空間複雜度進行估計,忽略了數據的分布,僅考慮模型函數空間中最壞的情況。
最後,實際中模型的泛化能力和數據分布是相關的。受到最近資訊理論和自適應數據分析的研究的啟發,我們用神經網絡學到的特徵和最後一層神經網絡參數的互信息,來bound泛化誤差。
最終,我們得出的結論是:網絡的輸出對於輸入的依賴性越小,其泛化能力就越強。在資訊理論中強數據處理不等式的保證下:只要網絡的每一層的映射是不可逆的(也就是信息衰減),那麼神經網絡所學習到的特徵和最後一層參數的互信息,就會隨著層數的增加而逐漸減少。因此網絡越深,模型的泛化能力也就變得越強。
隨著網絡層數的增加,在映射過程中模型會丟失對於數據擬合有用的信息。在這種情況下,訓練數據集擬合誤差就會變大。因此,深度網絡的泛化能力雖然逐漸增強,但是要想整個神經網絡的性能好,還需要保證訓練誤差足夠小。
2
通用近似定理一覽
儘管如此,信息衰減的要求是非常強的,畢竟現在的深度學習中,我們經常需要引入skip connections,因此這方面的研究還要進一步深入。
另外,也需要明確一下:神經網絡的容量非常龐大,甚至具有通用的近似能力。1989年的三個獨立工作,同時證明了神經網絡的「通用近似定理」。
Hornik在1993年也證明了,如果網絡無限寬,即使淺層網絡也可以近似任何連續函數。2017年,Lu等人也證明了有限寬的神經網絡也具有通用近似能力,而在今年他的團隊又證明了神經網絡可以近似任何分布。
這些例子都說明了一個問題:如果參數可以任意取的話,神經網絡網絡的容量會非常龐大。這裡又出現一個問題,參數是不是可以任意取?
目前神經網絡的參數都是通過隨機梯度下降算法(SGD)學到的,所以參數的取值並不是「任意的」。因此雖然神經網絡本身的假設空間非常大,但是隨機梯度下降只能探索到空間中的一小部分。這樣來看,隨機梯度下降算法是解釋深度學習泛化能力的關鍵。
3
隨機梯度下降解釋深度學習泛化能力
我們在2019年NeurIPS上的文章指出:隨機梯度下降的優化過程形成路徑可以用偏微分方程進行表示。SGD優化的過程可以描述為:T+1時刻的參數-T時刻的參數=學習率*函數的梯度。顯然,這個表達式就是偏微分方程。由於Batch是隨機的,初始化是隨機的,對於梯度的建模也引入了噪聲。這意味著,當前的梯度等於整個數據集上梯度的平均值加上一個不確定的噪聲。目前大家會假設是該噪聲是正態(高斯)分布,最近也有研究用別的分布來建模噪聲。
SGD的優化路徑可以用隨機過程的穩態分布來給隨機梯度下降算法學到的模型進行建模。然後,我們就可以利用PAC-Bayes得到泛化誤差的上界。
由此,我們得出結論:泛化能力和學習率與Batch Size之間存在正比例相關關係。這個關係也說明了超參數的調整有一定的規律可循。
我們在CIFAR-10和CIFAR-100上基於ResNet和VGG兩個網絡訓練了1600個模型,來驗證「正相關」關係。上圖是所有模型的測試精度分析,每一個小圖由20個模型畫成。我們用測試精度表示泛化能力,因為訓練精度幾乎是100%。左邊顯示學習率不變的條件下,測試精度和Batch大小之間的關係:隨著Batch Size的增加,測試精度下降。右邊是Batch Size不變的條件下,測試精度和學習率之間的關係:隨著學習率的增加,測試精度提升。
上圖是測試精度和Batch Size、學習率之間的比值的關係,每種顏色各由400個模型畫成。顯然,隨著比值的增加,測試精度下降。
4
深入理解損失曲面的幾何結構
所以,利用偏微分方程對SGD的優化軌跡進行建模,對理解深度學習非常有價值。同時這也要求我們深入理解損失曲面的幾何結構,因為損失曲面的幾何結構決定了偏微分方程在損失曲面上的軌跡。
這主要有兩方面的原因:首先,隨機偏微分方程包含了損失函數以及損失函數的各階導數,所以損失曲面的幾何結構直接影響了隨機偏方程的結構。
其次,損失曲面也決定了隨機偏微分方程的邊際條件,因此損失曲面決定了隨機梯度下降算法「輸出的解」的性質。
因此透徹理解損失曲面的幾何結構,對於研究深度學習的優化以及泛化能力非常重要。
在2018年Novak等人用實驗說明:神經網絡的泛化性能和損失曲面的幾何結構相關:神經網絡的泛化性能和輸入空間的區域個數相關。
然而,非線性激活函數使得損失曲面極端的非凸,並且不光滑,這使得優化算法的理論分析非常困難。這種混亂的局面使得目前已有的優化算法的理論分析變得非常困難。比如,為什麼凸優化的算法可以去優化神經網絡這種非凸的問題?
但是,深度學習模型在很多實際問題中,的確有很好的使用效果。由此可以想像,混亂的局面之下可能存在某種未被發現的秩序。
關於損失曲面的幾何結構,對於線性網絡(即激活函數是線性函數的網絡)現有的結論是:線性網絡在平方損失函數下,所有的局部極小值都是同樣好的,也即局部最小值就是全局最小值。如果非線性網絡也能找到類似的性質,那麼後面對於深度學習的理論分析就會比較順利。
現有的研究對線性和非線性有著有趣的辯論,例如非線性是不重要,因為非線性網絡繼承了線性網絡的性質。但是另一些文章則指出實際情況並非如此。
在2019年,Yun等人證明了單層的神經網絡損失曲面有無窮多的次優局部極小值。此結論需要有4個條件保證:1.單個隱藏層;2.平方損失;3.一維輸出;4.兩段線性激活。
我們今年在ICLR 2020的文章中,顯著擴展了這四個條件:1.任意深度;2.任意可微分損失;3.任意維輸出;4.任意分段線性激活。
那麼之前猜測的秩序有可能是什麼?Soudry和Hoffer在2018年指出,ReLU網絡的損失平面被劃分為若干光滑的多線性區域。
我們在文章中進一步指出:在每一個區域中,每一個局部極小值都是全局最小值;在每一個區域中,所有的局部極小值也匯聚成了一個極小值峽谷。
第三,一個峽谷上所有的點構成一個等價類;第四,此等價類還存在著平行峽谷;第五,所有的等價類構成一個商空間。
其實,這裡的第二條性質就解釋了模式連接。即隨機梯度下降找到的局部極小值的附近,存在著一些經驗風險差別很小的點,並且這些點連成了一條線。很遺憾,目前這些幾何性質只對單個隱藏層的神經網絡成立,對於多隱藏層的深度網絡,還有很多工作要做。
5
OMT:大佬對話談深度學習用於3維重建
在陶大程教授分享之後。復旦大學類腦人工智慧科學與技術研究院院長、上海腦科學與類腦研究中心副主任馮建峰,上海科技大學信息科學與技術學院教授、執行院長虞晶怡和陶大程教授進行交流。
虞晶怡:陶院士的演講聚焦於理論層面,當前有很多工作利用深度學習進行快速的3D估算,從而加速整個的判斷過程。您對此有何看法?
陶大程:對於物體跟蹤和檢測,三維重構可以提供很多非常有價值的信息:(1)物體在場景中的位置信息,幫助提高基於二維圖像的物體跟蹤和檢測的定位精度;(2)物體和物體之間的前後順序信息(在實際三維場景中,物體處在不同的layer上),幫助減少遮擋的影響並提升區分不同物體的能力;(3)通過三維重構,我們可以獲得更加精細的物體的特徵,幫助提高被跟蹤檢測的物體的表達能力。
今天的深度學習成功的主要原因,在於其很強的特徵表達能力。目前深度學習的泛化能力在理論上有很多問題還沒有解答。
對於這些問題的回答,需要大家更加深入的研究深度學習的基礎理論:讓我們充分理解深度學習什麼時候能成功,讓我們有效界定某一個特定的深度模型的使用範圍、讓我們知道該如何選擇訓練的技巧、以及讓我們更加高效的去調整參數等等。
招聘
AI科技評論希望能夠招聘科技編輯/記者一名
辦公地點:北京
職務:以跟蹤學術熱點、人物專訪為主
工作內容:
1、關注學術領域熱點事件,並及時跟蹤報道;
2、采訪人工智能領域學者或研發人員;
3、參加各種人工智能學術會議,並做會議內容報道。
要求:
1、熱愛人工智能學術研究內容,擅長與學者或企業工程人員打交道;
2、有一定的理工科背景,對人工智能技術有所了解者更佳;
3、英語能力強(工作內容涉及大量英文資料);
4、學習能力強,對人工智能前沿技術有一定的了解,並能夠逐漸形成自己的觀點。
感興趣者,可將簡歷發送到郵箱:jiangbaoshang@yanxishe.com
點
擊"閱讀原文",直達「ICML 交流小組」了解更多會議信息。