作者 | 青暮、彩嫻、大鑫
編輯 | 陳彩嫻
8月29日至30日,主題為「智周萬物」的2020年中國人工智慧大會(CCAI 2020)在位於江蘇南京的新加坡·南京生態科技島舉辦。
加拿大蒙特婁大學教授、2018年圖靈獎獲得者、蒙特婁學習算法研究所(Mila)主管Yoshua Bengio在這次大會中進行了在線演講,演講主題是《DeepLearning:From System One to System Two》。
Yoshua Bengio提到,人的認知系統包含兩個子系統:系統1和系統2。系統1是直覺系統,主要負責快速、無意識、非語言的認知,這是目前深度學習主要做的事情;系統2是邏輯分析系統,是有意識的、帶邏輯、規劃、推理以及可以語言表達的系統,這是未來深度學習需要著重考慮的。
對於系統2來說,基本的要素包括注意力和意識,意識先驗可以使用稀疏因子圖模型來實現,這是一個思路,實現了因果關係。從人的角度來看意識,語言是高層次的表示,這需要把人的兩個認知系統即系統1和系統2有機的結合起來,也就是說把低層次的表示和高層次的決策結合起來,從而實現系統進化。
對於如何用深度學習來實現系統2,Yoshua Bengio指出,最關鍵就是處理數據分布中的變化。對於處理數據分布,傳統機器學習都是基於獨立同分布的假設,但實際需要關注更多的是分布外泛化。尤其是從強化學習的角度來考慮,需要考慮哪些是影響數據分布變化的因素。
以下是演講全文,AI科技評論進行了不改變原意的整理:
1
下一代深度學習
在今天的演講中,我討論的主題是下一代深度學習/深度學習2.0。
首先,我意識到在機器學習中存在一個潛在的假設,稱其為「驚人的假設」。在這其中,可能存在一些簡單的原理可以逐漸發展為智能,而它們都基於學習。這些原理對於人類智能、動物智能以及智能機器都是很普遍的。這些原理足夠簡單,可以像物理定律一樣加以描述和壓縮。這與八十年代的主流方法大相逕庭,因為當時人們認為智能是大量知識技巧的集合。相反,這個假設依賴於一小組通用的機制,並且需要知識。
用於人工智慧和機器學習的神經網絡方法受到大腦工作原理的啟發。其中的計算過程基於大量簡單的自適應計算單元的協同作用。如今,我們重點關注的是表示的概念,尤其是分布式表示的概念。
因此,通過深度學習方法,我們將智能視為由三個主要事物的組合所產生:
1、要優化的目標函數或獎勵函數;
2、用於逼近最優解的優化器或學習規則,它將修改神經連接的權重以大最優化目標函數或獎勵函數;
3、初始的網絡架構。
最後,我們可以應用學習規則並執行端到端學習,其中不同部分都互相協調從而最優化全局目標函數。
2
分布外泛化
當前的神經網絡和機器學習可能缺少什麼?我們對訓練分布以外的泛化性沒有很好的理解。我們討論學習理論時,通常討論對測試集的泛化性。測試集的分布和訓練集的分布通常是相同的。我們需要更好的理論來思考如何泛化修改的分布或實現分布外泛化,這也是一個實際相關的題,因為在現實世界中,訓練數據和實際部署時遇到的數據分布通常是不同的。
人類能夠以某種高效方式重用已擁有的知識,而當前的機器學習並不擅長知識重組。機器學習擅長的是將知識模塊化為可重用的片段。因此,如果能用正確的方法將上述的組合性概念實際上與組合增強有關,可以帶來某種指數優勢。
在機器學習和深度學習中,組合性以不同的形式出現。在分布式表示的概念中,表示中的特徵的任何子集都可以存在或處於激活狀態,這實際上可以帶來指數優勢,就像我們幾年前在發表在ICLR2014的工作中展示的分段線性激活函數構造。組合性帶來的指數優勢還在於,我們可以用堆疊的層構建深度學習網絡,形成了函數的函數的函數的…這也是我們今天使用的標準深度單元。但是,目前缺少人類使用一種特定語言的另一種形式的組合性,這種形式通常稱為系統泛化性,這種泛化性使我們能通過類比執行抽象推理。
通過重組現有概念和知識片段來解釋新觀察結果的概念在語言中非常普遍,在語言學和其他領域中已有了相關研究。例如,Lake等人在2015年的工作中展示,對不同類型車輛的了解可以使系統能夠理解未見過的新型車輛。系統泛化的強大之處在於,即使新的組合在訓練分布下的實際機率為零,也能夠做進行系統泛化。新的組合是如此新穎,以至於在訓練分布中不存在。根據物理定律,我們甚至可以預測不可能發生的事情,例如科幻小說描述的情景。
有時候它們只是隱變量,例如你需要在交通規則不同的其他國家/地區行駛,這時必須修改隱變量,並以某種方式泛化。人類泛化能力的有趣地方在於,有時需要有意識的處理和注意力才能做到,當前的機器學習和深度學習並不擅長這一點。
3
系統1和系統2
通過這種有意識的注意力,人類可以動態地重組適當的知識,以應對新穎或罕見的情況,並以此為依據進行推理和預測,想像出解決問題的新方法。當人類這樣做時,其行為方式不同於直覺慣性的行為方式。
這兩種思維方式與系統1和系統2的概念有關,可以歸結為快思考和慢思考。讓我們嘗試將這兩種認知處理分開。我們擁有直覺的系統能力,可以很快做出正確的決定,該過程發生在無意識的水平。在這種時候,我們很難弄清大腦中發生的事情。當執行習慣性行為(例如開車回家)時,我們始終會這樣以同樣的方式執行,而無需費力的思考,同時還能做其他事情(例如在開車時和人交談)。我們利用了有關世界的知識,但這是沒有明確訪問權限的一種知識形式,很多過程是隱式的,這正是深度學習所擅長的。
另一方面,在執行系統2任務時,大腦要採取一系列步驟,以解決邏輯思維問題,這時需要更多時間來想出答案,並且是有意識地思考。因此,我們可以用自然語言向其他人解釋我們的思考過程。這就是我們提出算法、計劃和推理時所應用的思考模式,這時要利用的知識涉及可以口頭向他人解釋的顯式知識。這也是我們希望深度學習擁有的能力。利用這種能力,我們可以在與人交流中使用高級語義概念,從而將它們重新組合,從而實現泛化性。
當人類應用系統2的能力時,會使用有意識的注意力。注意力是深度學習的新工具,在去的幾年中,已經取得了巨大的成功。我們開始將注意力用於機器翻譯。注意力允許在單次計算集中於少數幾個元素。如果使用軟注意力,則通過反向傳播來學習注意力權重。從神經科學的角度來看,注意力就像一塊內部肌肉,不是從要對外部世界執行什麼行為,而是在進行內部決策時,確定如何在大腦中分配計算量。
神經網絡中注意力的另一個有趣方面是,它使我們能夠擺脫傳統環境設置的限制。在傳統環境設置中,我們只能操作一些特徵向量。現在有了注意力機制,對象集、(鍵、值)對集已經在自然語言處理中得到了廣泛應用,而Transformer在很多NLP任務上都處於領先地位。
這種注意力機制恰好是當前意識理論的核心。在認知神經科學中,C-word不再是禁忌,但由於某種原因,它在AI中仍然是禁忌。我認為現在該是時候看看認知神經科學在意識方面取得的進展,看看是否可以從中獲得啟發,以建立新的機器學習架構和訓練框架。
全局工作空間理論(Global Workspace Theory)是意識的主要理論之一,由Baars在1988年發起。這個理論的基本思想是大腦由許多不同的專家模塊組成,這些專家模塊需要以連貫的方式進行交流,以便找到新問題的解決方案。它工作方式可能是,有意識的處理中存在瓶頸結構。例如,在任何時候,注意力都只能關注少量元素。
選定的元素以及它們附帶的值將通過瓶頸結構傳播到整個皮質。這些值存儲在短期記憶中,並且與感知和行為的相關性非常強。有意識地完成的任務與系統2有關。之所以需要這樣的瓶頸結構,是因為有意識的處理使我們能夠對可能的未來進行某種連貫的模擬,這正是我們想像時發生過程。而與電影不同的是,該模擬在每個步驟僅涉及幾個抽象概念,瓶頸結構和一致的處理方式可以確保促成該模擬的皮質不同部分產生一致的配置和彼此連貫。
4
系統2滿足的7個假設
現在,我們採用另一種討論方式,這和可語言化知識與不可語言化知識有關。在大腦中,當我談系統1和系統2時,似乎都涉及不可靠的隱性知識。我們擁有可口頭表達的知識,可用於有意識地進行推理和計劃,並向他人解釋。關於這兩種知識存在一些假設,它們可以捕獲世界的不同方面。系統2捕獲的方面滿足一些假設,系統1捕獲的某些先驗不需要滿足這些假設。
在機器學習中考慮先驗時,通常會認為先驗或多或少是正確的。但實際上,如果存在對世界某些方面適用的假設,那麼在理解世界時就應該涉及一些變量,也許這些先驗對其他方面沒有任何意義。如果是這樣,將知識分為兩種是合理的,即滿足假設的類型,和不滿足假設的類型。對於不滿足假設條件的方面,可以通過系統1來處理,以便可以利用先驗優勢來獲得更好的泛化能力。如果我們相信這個假設,首先要清楚,在系統2中存在而在系統1中不存在的這些假設是什麼。
因此,我列出了這些假設,該列表可能需要完善,但是這些是對高級系統變量以及系統2知識均有效的原則。我將先簡單描述這些假設,然後對部分假設詳細說明。
這些假設如下:
1、高級語義變量空間的因子圖是稀疏的;
2、語義變量是因果的;
3、分布的變化基於局部的語義空間中的因果乾預;
4、高級語義變量之間存在簡單的映射;
5、跨實例元組的共享規則;
6、高級語義變量的含義對於分布的變化是穩定的、魯棒的;
7、信用分配只是短因果鏈;
第一個假設是我在2017年的一篇論文中談到的有意識先驗(The Conscious Prior)。裡面談到,我們希望在深度學習表示的最高層發現的那些高級語義變量,具有一個聯合分布。如果我們將聯合分布表示為因子圖,則這種聯合分布會以某種方式更精確地展現,這些表示依賴關係的因子圖非常稀疏。
我將舉一些例子來說明這樣做的意義。考慮一下自然語言,當一個句子包含這些高級變量時,該句子就可以表達關於世界的陳述。該句子捕獲了高級變量之間的某些依存關係,僅涉及幾個變量,因此是稀疏的。
第二個假設是,那些帶有語義變量的高級變量,與因果關係有關。如果考慮語言中的詞彙,它們通常會告訴我們有關智能體、人、動物在世界上發生的事情,以及如何干預世界,即通過他們的行為改變世界。
這些詞彙也告訴我們有關這些智能體所具有的行動或意圖。因此,智能體通過行為導致事情發生,然後它們將通過這些行為對世界產生影響,影響效果通常超出對象本身。因此,我們可以將這些對象視為可控實體,智能體可以控制這些對象。而且,在對象本身之間可能產生關係。
第三個假設不是關於變量的性質,也不是關於變量的聯合分布,而是關於聯合分布在現實世界中如何變化的趨勢。其思想是,影響通常是由智能體做某事引起的,或者我們稱之為干預。因此,在這種情況下,一次只發生很少的事情,這意味著在所有這些高級語義變量的巨大圖形化模型中,只有很少一部分變量描述這樣的變化。我們可以用自然語言以某種方式確認這個假設,因為我們可以用一個或多個句子通過重構造描述世界的那種變化,這些句子僅涉及幾個變量。因此,這實際上是一個非常有力的假設。
第一個假設告訴我們,高級知識被分解成與依賴項相對應的小片段,這些依賴項一次涉及幾個變量,我們可以用新的方式重新組合它們。第四個假設是,我們要尋找的高級表示之間有一個簡單的映射,語言、句子、單詞等都有某種簡單的映射思想,以及在構建的系統中的表示形式。
為了能夠重新組合這些知識、依賴項、變量,我們需要對圖模型做一些操作。我們需要引入某種形式的共享,並考慮規則和可行性。規則描述了一些變量之間的依賴性,這些變量不必是實際的實例或對象,它們可能是抽象的,這是可行的方法。因此,這裡有一種互動形式。然後,你可以結合這些知識,這些知識以新的方式捕獲依賴關係,而不僅僅是固定結構。這是第五個假設。
然後是與表示本身有關的第六個假設。請記住,我們對世界的變化方式感興趣。現在的問題是,當世界變化時,變化的實質是什麼?我們可以這樣定義,即世界的變化是某些量或某些依賴項的變化。這些變量的定義應該是穩定的。因此,我們考慮使用一種編碼器,將像素級別表示映射到語義級別表示(例如類別),並且該映射應該是穩定的,這個過程需要學習。因此,隨著我們看到更多數據,它的語義表示發生變化,但是應該會收斂。而解釋這個世界的一些隱變量的值可能會由於智能體的干預而變得不穩定。
最後一個即第七個假設,即信用分配僅僅是因果鏈,因果鏈非常短。該假設與人類推理的方式有關,人類推理的方式有助於信用分配。同樣,自然語言被用來解釋,並且只涉及因果鏈中的少量變量或要素。
5
因子圖的稀疏性
下圖展示了一個因子圖,該因子圖中有兩種節點。圓圈代表變量,正方形代表變量之間的依賴關係,這些依賴關係也稱為因子, 聯合分布是通過這些因子的標準化乘積獲得的。每個因子都與一個潛在函數相關聯,該函數以該因子所連接的變量的值作為參數。
原則上,因子圖可以具有涉及所有變量的因子,因而並不稀疏。然而,人類憑藉明確的知識構建的因子圖非常稀疏,自然語言的特性是一種證明。「如果我丟球,它將掉在地上。」你會注意到該句子僅包含幾個單詞,每一個單詞或短語都對應於一些高級語義概念。
有趣的是,你可以這樣說,聲稱在球、放下球的動作以及位置之間存在依賴性。令人驚訝的是,很多預測都將是正確的,即使該預測涉及的變量很少。
如果要預測一個隨機變量,則需要在一些涉及許多隨機變量的大的聯合分布中來預測一個變量。通常,我們需要以所有其他變量為條件。如果僅以一個很小的子集為條件就足夠了,那麼在該因子中就有一個結構,這種結構可以使我們更好進行泛化。對於其他變量而言,這種假設並不一定是正確的。例如,這些假設不適用於像素級變量, 根據其他像素預測一個像素是非常困難的。這就告訴我們,當我們強制執行此假設時,我們還對與該假設一致的表示進行了強制。
現在,我們希望神經網絡能夠發現這些高級變量。它們是解纏因子,但不是互相獨立的。與最近許多關於解纏變分因子的工作不同,那些高級變量通過稀疏因子圖的結構互相依賴,但是它們不是獨立的。
這裡談論的知識表示是一種聲明性表示。大腦在做的是推理,不是僅提供某些信息或某些變量,而是對其他變量進行預測,推理機制是一種計算。現在將知識分解成聲明形式中與不同依賴項相對應的小片段,目前尚不清楚如何將其轉化為關於推理方式的某種知識分解。但是,如果我們看看人類是如何根據這些知識進行推理的,也許可以從中得到一些線索。我們可以使用順序過程來完成此過程,同時將注意力集中在因子圖的少數幾個元素上。
因此,在這種情況下,推理機制也被構造成這些片段。但是,根據推理鏈的類型,我們將遍歷該鏈,例如以不同的順序組合不同的片段。因為圖不是鏈,它有很多途徑。這啟發了我們設計推理機制,這是一般的神經網絡用來進行推理、預測事物的方式。為此,我們設計了一種形式的循環網絡,我們稱之為循環獨立機制(Recurrent Independent Mechanisms, RIM)。
相比關注於所有隱藏單元(從t到t+1)均相互連接的變量,我們聚焦於含有循環模塊(recurrent module)、模塊與模塊之間相互連接的稀疏模塊化結構(sparse module structure)。此外,模塊之間設置了注意力機制,用於控制模塊之間的稀疏交流方式。
首先,即使是最基礎的循環獨立機制也能在許多需要使用循環網絡的場景提供改善作用。如上圖所示,這是用RIM代替LSTM而取得的進步。此處,數值大於0的結果均表示性能改善。
這項工作中最振奮人心的拓展之一就是RIM。它的出現源於全局工作空間論理論(Global Workspace Theory)。在該理論中,模塊之間可以通過前面提到的瓶頸結構相互交流。在這裡,「瓶頸」指的是一個工作空間,或信息存儲器(working memory),在這個空間內,使用了注意力的所選模塊能被寫入信息存儲器內。之後,存儲在信息存儲器內的信息會傳遞給所有模塊。
我們發現,在許多涉及到強化學習和建模序列(modeling sequences)的設置中,RIM的表現比LSTM和其他方法的表現均更出色。我所提到的這些實驗還能夠更正任務(比如添加任務)。這些實驗的有趣之處在於,使用這些架構的主要優勢之一是可以在分布外測試模型。
我們應用了注意力機制進行模塊挑選。注意力機制可以根據輸入判斷哪些模塊是相關的,然後靈活選擇不同的RIM模塊。自然而然地,在處理新的輸入時,你可以運用這種新穎的方式將已存在的模塊進行組合。在這些實驗中,我們清楚地看到了模塊化和元學習的優勢。這是Kanika Madan等人最近完成的工作。
6
因果關係
我們想要發現高級語義變量的正確表示空間。你可以考慮在原始輸入(例如像素)上使用編碼器和解碼器,以得到高級語義變量,進而發現能將數據解釋為高級表示的、正確的因果變量。
這其中也涉及到干預。此處,我們可以在圖中設置一些與智能體的動作相對應的節點,並且它們將導致某些變化。這時候可以怎麼做呢?
首先,因為我們要處理的是因果關係和干預問題。因此,在假設數據是靜態的情況下,就像訓練機器學習系統, 並不能幫助我們梳理清楚因果關係,也不能幫助我們理解不同變量如何與智能體、與這個世界的可控方面等對應。
這時,我們該研究那些行為會隨著時間而發生變化的學習場景。這一點很重要。有趣的是,一旦開始談論智能體,就會逐漸形成因為智能體的行為而引起分布變化的概念,尤其是在多智能體的場景,如下圖所示。
這個世界以非固定的方式改變。比方說,一旦你進入有危險怪物或擁有大量現金的地方,你的生活就會永遠改變。這是動物必須面對的處境。換句話說,大腦的學習機制也具有進化能力,還具備從分布外形成的泛化能力。
因此,讓我們談談如何利用分布的改變來學習良好的表示,我們從原始輸入到語義空間進行討論。當世界發生某些變化時,實際上首先是原始輸入發生了改變,然後要看看語義空間是否也發生改變。
我們如何才能更實際地利用這一優勢?去年,我們就這一角度發表了第一篇論文,發表在今年的ICLR 2020上。在其中我們考慮了一個非常簡單的場景,其中只有兩個核心變量a和b,我們可能沒有觀察到a和b,而只是觀察到了解碼器的輸出。其中我們觀察到x和y,x和y都取決於a和b。現在,我們要做的是發現x、y的觀測值之間的關係,a、b是隱變量,它們之間的因果關係有各種可能。事實證明,如果擁有正確的模型和正確的表示形式,則可以使用更少的示例來適應變化,這樣就可以更快地學習。
如果有足夠的數據,就無需理會結構或模型的原因,只是以不同的方式對聯合分布進行建模,但最終它們會收斂到同一個結果。但是,如果只有少量數據,那麼正確的因果結構就具有很大的優勢。
最近,我們將這種想法擴展為從較大的因果圖中學習。然後,我們將該方法與發現因果結構的現有方法進行了比較。而且,我們發現該方法實際上可以更頻繁地發現正確的因果圖。有趣的是,該方法還可以泛化到未見過的干預。
這種方法的總體思路是,在所有可能的圖上保持一個分布。在這項工作中,我們可以列舉所有可能的因果結構。如果有很多變量,那麼圖將具有指數數量的可能圖。因此,如果想了解哪種方法是正確的,並且使用某種隨機評分方法。我們希望在圖結構上平滑地改變後驗分布,並且有一種有效的方法可以將這種後驗分解為一系列因子。因此,我們保持了這些機率,並且可以使用採樣方法對這些機率計算梯度,收斂到特定的圖。
7
結論
這項工作關於從系統1到系統2的有趣一面是語言。正如一開始所說,關於世界的知識既分布在滿足這些假設的系統2中,又分布在不滿足這些假設的系統1中。當我們想理解一個句子時,我們也需要系統1的部分,這是紮根於自然語言的思想。因此,我們要做的就是用自然語言共同學習系統1和系統2,而不是僅從測試分布中學習。我們在可以觀察圖像、動作和對應它們的自然語言的環境中學習,這是從我之前提到的BabyAI項目開始的研究。但是,涉及這些基礎的語言學習設置有很多研究方向,而這實際上是將系統2的這些思想與自然語言聯繫起來所必需的。
最後,我想說的是,作為機器學習研究人員,在這項工作以及其他工作中,我們都肩負責任。我們不僅僅只在大學和實驗室學習,而是應該在現實世界中時刻進行學習。這意味著我們必須注意工作對社會產生的影響。就好比智慧賽跑:是技術得以讓世界進步。我們需要確保社會準備好接受這一點,我們要有足夠的個人和集體智慧,避免對技術進行災難性的使用。
2020年8月23日 - 2020年8月30日「森林書」留言送書活動已結束,公眾號後台回復「森林書」三字即可獲取中獎名單,這兩天AI科技評論會與大家取得聯繫。