真正實現類人智能!美國工程院院士Jeff Hawkins:創造機器智能之路

2021-06-07   AI科技評論

原標題:真正實現類人智能!美國工程院院士Jeff Hawkins:創造機器智能之路

Jeff Hawkins 是美國著名計算機科學家與神經科學家,美國工程院院士,目前任職於美國加州Numenta 公司。2004年,他曾出版科普著作《On Intelligence》,把人工智慧這個陌生概念播撒到無數人心中。在本屆智源大會上,他發表了題為「The Thousand Brains Theory - A roadmap for creating machine intelligence」的演講。作為公司的聯合創始人,Jeff 為 Numenta 公司設定了雙重使命:理解大腦工作的機制、根據大腦工作的機制創造機器智能。在 Jeff Hawkins 看來,想要最迅速地創造真正的智能機器,首先需要理解人類大腦是如何工作的。

1

大腦皮層如何學習世界模型

大約 5 年前,Jeff 在理解大腦的工作機制方面取得了重大突破。他將大量的研究成果彙集到了「千腦理論」一書中。 2022 年年初,由智源研究院承擔翻譯工作的「千腦理論」中文版將由湛廬文化出版社出版,敬請期待!

圖 1:千腦理論——創造智能機器的路徑

人腦可以分為兩個部分。其中,占人腦 70% 的大腦皮層是一大片神經組織,其厚度大約為 2.5 毫米,表面積大約為 1,500 平方厘米,它將大腦的其餘部分包裹起來。人腦其餘的部分由一些不可見的有專門用途的小型區域組成,它們可以控制人類的基本功能,例如:呼吸、消化、應激、跑步、走路、咀嚼,甚至情感。

圖 2:大腦的組成

相較之下,大腦皮層是真正產生智能的器官。人類的意識、視覺、聽覺、觸覺等感覺都產生於大腦皮層。認知、思維、計劃等人類擁有的活動都是大腦皮層的產物。近年來,研究人員對大腦工作機制的了解有了較大的突破,並受此啟發製造智能機器。

圖 3:大腦皮層可以學習關於世界的模型

首先,人們很容易將大腦的工作機制與計算機進行類比,即得到輸入數據,對輸入信息進行一系列處理,然後再輸出信息。然而,Jeff 認為這並不是大腦真正的工作方式。在他看來,大腦皮層是一種建模器官,它會學習關於世界的模型。我們所知曉的一切關於物體的形狀、觸覺、顏色、溫度、聲音,以及我們與物體的交互都會被存儲在該模型中。該模型還會囊括物體的位置信息,知曉我們與物體交互後物體會產生的變化。成千上萬的物體、單詞、概念會被存儲於位於我們大腦的神經元的模型中。

這種模型使我們可以知曉自己所處的方位,能夠識別物體和交互動作。更重要的是,它使我們可以預測動作將導致的結果。為了實現某些目標,我們可以在行動前根據該模型在腦海中做出對行為的規劃。

圖 4:房屋的物理模型

如圖 4 所示,我們可以根據房屋架構的物理模型,從各種不同的方向觀察房屋,還可以想像我們對其進行改造後的外觀。此外,我們還可以做出一系列規劃,例如:如何從車道上走到游泳池。

圖 5:描述房屋的坐標系

我們經常在計算機中構建如圖 5 所示的房屋模型,從而從不同視角觀測房屋。我們往往會為該模型施加一個笛卡爾坐標系作為參考,而房屋中的一切物體都具有其相對於參考系的方位。如果我們想要定位一個門,只需要再構造一個綠色的參考系,然後定位該參考系相對於房屋參考系的位置。五年前,我們發現大腦對世界建模的機制與上述情況類似,它也會使用某種類似的參考系存儲知識。

此外,想要實現智能,我們不僅需要學習出這種有關世界的模型,還需要不斷更新它,該模型並非一成不變。每當有情況發生變化時,該模型就會發生改變。

那麼,大腦皮層會如何學習世界模型?

圖 6:將大腦皮層被劃分為若干功能區域

大腦皮層可以被劃分為若干功能區域。例如,在大腦後側有視覺中樞,側面有聽覺中樞,頂部有感覺中樞,此外,還有專門負責語言的腦區。所有腦區支配的行為之間存在異同,它們之間也會進行整合。

實際上,從外部來看,這些區域的外觀是相同的。但是,如果我們通過顯微鏡觀察腦區的內部結構,又會有何發現呢?

圖 7:大腦皮層的迴路處處相似

令人驚訝的是,在顯微鏡下,大腦皮層每一處的結構都是相似的。1899 年,Cajal 首次獲得了 2.5 毫米厚的大腦皮層的照片。如圖 7 所示,大腦皮層組織里包含許多不同種類的細胞,這些細胞的形狀、大小、密度各異。這些細胞分層排列,細胞之間存在連接,而層與層之間也存在著連接。因此,在這個 2.5 毫米厚的組織中,信息會在層與層之間傳遞。儘管有些層可以遠距離傳遞信息,但大多數層仍然是垂直傳遞信息。

不僅人類大腦皮層不同區域的結構相似,貓、狗、猴子等其它動物的大腦皮層也是如此。它們有相同種類的神經元,通過相同的層次化方式組織起來。每個區域都會接受某種輸入,其中有的區域會直接從感受器接受輸入。同時,每個區域都會產生運動輸出。在大腦皮層的每個區域,都存在「感覺運動整合」,這是一種普遍存在的結構。

那麼,為什麼具有相同結構的大腦皮層區域會產生不同的行為呢?

圖 8:皮質柱

1975 年,約翰霍普金斯大學的教授 Vernon Mountcastle 指出,大腦皮層之所以處處看起來是相同的,是因為它們執行著同樣的基本功能。而不同的腦區負責怎樣的功能取決於它們與什麼相連接(例如,負責視覺的枕葉皮層與眼球相連接)。此外,他還指出,大腦皮層由重複的單元組成,這種單元被稱為「皮質柱」。我們的大腦皮層會複製大量的皮質柱,從而變得越來越大,這些皮質柱一個挨一個地堆疊起來。

在顯微鏡下,我們無法看見皮質柱,但它們確實存在。如圖 8 左下角所示,我們用六個圓代表六個相連的皮膚塊,它們一個接一個排列開來。這些皮膚塊分別與大腦皮層中的皮質柱相連。我們可以通過探針找到對某個皮膚塊有響應的所有皮質柱細胞。我們發現,不同的皮質柱會對不同的皮膚塊產生響應,這並不是一種連續的表征。這種組織方式貫穿於整個大腦皮層。

在神經科學研究社區中,關於是否「所有皮質柱的功能都相同」這一問題存在一定爭論。Jeff 等人發現,皮質柱之間 90% 的部分是相同的。那麼,這些皮質柱共同的功能是什麼呢?

2

千腦理論:大腦對每個物體構建數千模型

圖 9:皮質柱可以感知物體類型和位置

首先,每個皮質柱都會學習關於世界的完整模型,它們會通過整合感覺輸入以及時間流中的各種運動來學習模型。如圖 9 所示,當我們手指上的皮膚塊觸碰到咖啡杯時,它會接收到感覺輸入,並將其傳遞給大腦皮層中特定的皮質柱。除此之外,大腦皮層還知道手指的運動信息,即能夠跟蹤手指在咖啡杯的參考系中的運動軌跡。

因此,皮質柱中存在表征物體參考系的細胞,他們負責不斷更新手指在該坐標系中的位置信息,並將其作為另一種感覺輸入。通過移動手指,我們將構建出一個有關咖啡杯的模型(是什麼?在哪裡?),該模型會逐漸穩定下來。

圖 10:皮質柱的投票機制

我們之所以將該理論稱為「千腦理論」,是因為大腦會對每個物體構建數以千計的模型,每個皮質柱都會構建關於許多物體的模型。關於物體的知識存儲於數以千計的皮質柱中。

如圖 10 所示,假設我們使用三個手指同時觸摸咖啡杯,每一個手指對應於一個不同的皮質柱。每個手指及其皮質柱會生成一個獨立的關於咖啡杯的模型。由於皮質柱中各層細胞之間存在橫向的連結,我們認為這些皮質柱之間存在一種「投票」機制。在不移動手指的情況下,這些手指利用它們所掌握的部分信息進行投票,從而整合在咖啡杯不同位置獲取到的信息。因此,我們只需要讓多個皮質柱投票一次就可以迅速得到咖啡杯的信息。而如果我們只使用一根手指,就需要不斷移動手指才能識別出咖啡杯。

對視覺而言,視網膜就好比上面提到的皮膚,每一片視網膜都只關注圖像的局部區域,並且投射給皮質柱,各個皮質柱則將通過投票機制整合視覺信息。因此,如果我們使用完整的視野,只需要掃一眼就可以識別物體。而如果我們透過一根吸管觀察物體,就必須不斷移動吸管中的視野才能識別物體。

有趣的是,大腦皮層中有一些部分是穩定的,也有些部分在不斷變化。即使我們的手指或視覺在某個物體上移動,我們對物體的表征會保持穩定。以視覺為例,我們的眼睛每秒鐘大約會移動3次,但是我們並不會察覺到這個現象,也就是說,我們覺察到的表征是穩定的,而這種現象也是通過皮質柱之間的投票機制實現的。

3

仿真實驗

圖 11:在 YCB 物體抓取數據集上的實驗

Jeff 等人在 YCB 物體抓取數據集上進行了實驗。他們構建了一個虛擬的帶有曲率傳感器的機械手,這個機械手可以抓取並識別物體。

圖 12:抓取/識別實驗結果

抓取/識別實驗的結果如圖 12 所示,圖中的橫軸代表真實的物體類別,縱軸代表機器所推理出的物體類別,圖中對角線上的點代表完美的預測結果。當我們使用 1 根手指觸摸物體時,結果存在很嚴重的誤差,隨著使用手指的增多,誤差逐漸下降。

圖 13:收斂時間 vs. 皮質柱數量

從另一個角度來看,圖 13 的橫軸代表參與感知任務的皮質柱數量,縱軸代表為了識別物體需要進行觸摸的次數。隨著皮質柱數量的增多,需要觸摸的次數迅速下降。當皮質柱數量大於等於 6 時,無論物體有多麼難以識別,我們只需要觸摸一次就可以將其識別出來。

圖 14:網格細胞、位置細胞、物體向量細胞

人類等動物可以對環境進行學習。以小鼠為例,其網格細胞相當於參考系,而位置細胞則會基於感覺輸入判斷小鼠所處的方位。我們的大腦可能也通過同樣的機制工作。類比於神經科學領域的網格細胞、位置細胞、物體向量細胞,Jeff 等人認為我們的皮質柱中也存在類似的細胞。

圖 15:網格細胞存在於前額葉皮層,被用來對概念建模

科學家們通過一系列複雜且巧妙的實驗證明,當人類從尺寸、腿長、頸長等方面辨認鳥類時,會用到位於前額葉皮層的網格細胞,並且沿著其構造的參考系思考鳥類。

圖 16:位於軀體感覺皮層的網格細胞、位置細胞、邊緣細胞

來自中國的科學家們發現,網格細胞、位置細胞、邊緣細胞等存在於軀體感覺皮層,印證了 Jeff 等人的預測是正確的。

4

人工智慧與機器智能

將大腦工作機制應用於機器智能是 Numenta 的目標之一。在 Jeff Hawkins 看來,儘管如今的神經網絡技術十分強大且有效,但是它們仍然並不夠智能。

首先,機器需要學習有關世界的模型,從而更好地進行推理、預測、規劃,並且基於該模型做出運動行為。現有的機器學習技術大多只是淺顯的捕獲了世界中的某些結構(例如,物體的三維模型或交互情況)。然而,真正的世界模型要複雜得多,它並不針對於某種具體的任務,可以被應用到各種各樣的場景下。

第二,這種世界模型應該分布在許多幾乎一樣的單元中,這些單元通過投票形成共識。這種架構極為魯棒。以人為例,即使大腦的某些部位受到了損傷,我們仍然能夠很好地構建出關於世界的模型。這種分布式的模型還可以從小的尺度向超大規模的系統進行擴展。其它的哺乳動物也具有與人類似的皮層結構,只不過它們所包含的皮質柱較少。此外,我們可以使用任意類型、任意大小的傳感器陣列來獲取感覺輸入,這為我們設計人工智慧系統帶來了很大的靈活性。各個單元的投票機制解決了「綁定問題」,即如何將各種感覺輸入融合為單一的知覺。

對於製造智能機器來說,最重要的一點是,在每個構建單元中,我們將知識存儲於參考系中,並且通過「感覺-運動」交互來學習知識。這也正是我們進行無監督學習的方式,我們通過移動和觀察來提取不同的特徵。引入參考系可以使機器像人一樣快速地學習,在對新物體進行學習時,我們只需要找到物體在參考系中的位置。此外,對於機器人等應用而言,我們可以將運動行為融合到該參考系中。

圖 17:創造機器智能的路線圖

Jeff 從如今的人工神經網絡出發,給出了創造機器智能的路線圖。其中的關鍵要素包括:稀疏性、活躍的樹突、參考系、皮質柱。

就稀疏性而言,在人腦中,有 98% 的神經元處於靜息狀態,只有少數的神經元是活躍的,人腦中大多數的基本單元並不相連,這與現代人工神經網絡區別很大。具體而言,Jeff 等人通過稀疏的激活函數和權值使現有的神經網絡稀疏化。通過稀疏化處理,神經網絡對於噪聲變得更加魯棒,其運算速度也大大提升,並且可以被迅速擴展為更大的模型。

圖 18:谷歌語音控制數據集

在谷歌語音控制數據集上,目前最優的準確率為 95%-97.5%。Jeff 等人提出的稀疏卷積神經網絡相較於密集的卷積神經網絡而言,獲得的平均準確率相當。而稀疏卷積神經網絡神經元之間的連接數僅為密集卷積神經網絡的 1/10,稀疏程度為 90%,在大大提升計算速度的同時,降低了內存的占用,並且對於噪聲的魯棒性也有顯著的提升。

圖 19:稀疏網絡

Jeff 等人進一步在賽靈思的 FPGA 上驗證了稀疏網絡的性能。如圖 20 所示,在 Alveo U250 上,單個稀疏神經網絡的運行速度相較於密集神經網絡提升了 33 倍。由於稀疏神經網絡的規模遠小於密集神經網絡,整塊晶片上可以容納更多係數神經網絡,因此整塊晶片上的吞吐量提升了超過 100 倍。而更小的晶片甚至無法容納密集神經網絡,卻可以很好地適用於稀疏神經網絡。這樣的特性使得係數神經網絡可以被嵌入到邊緣計算應用設備上。目前,Jeff 等人正試圖在 Transformer 網絡上實現稀疏性。

圖 20:實現機器智能的路線

當下所有的人工神經網絡所使用的神經元都是「點神經元」,這是一種對於真實的人類神經元極為簡化的抽象。實際上,人類神經元具有樹突分支,它們具有很多很好的特性。Jeff 等人正試圖使用擁有樹突分支的神經元替換點神經元。這樣的結構有助於實現持續學習、無監督學習/自監督學習。這是因為,人類在學習時,並不會更新整個突觸,而只會更新某些突觸段。從而使之前學習到的大多數知識不受影響。這樣的結構還使我們可以根據預測誤差學習,並且需要更少的有標籤數據。

向神經網絡引入參考系有助學習不變的表征,這使我們需要的訓練集更小,並且使機器可以理解組合式的結構,從而展現出非常靈活的泛化性能。

我們可以在軟體和硬體上實現堆疊的皮質柱,從而引入高度可擴展性的感覺運動系統,這將催生出更先進的機器人設備。