作者 | 叢 末
編輯 | 蔣寶尚
人工智慧研究到最後,都會面臨一個問題,那就是模型是否能擴展到其此前從未見過的領域,即像人一樣擁有「舉一反三」的能力,而這就是遷移學習有可能實現的。
——楊強
遷移學習,從最初一個默默無聞的人工智慧分支,如今已成為AI 領域炙手可熱的研究領域。
2019年底,世界公認的技術風向標Gartner 曲線曾將遷移學習列為新興技術之一,這也預示著遷移學習的技術已經從學術研究正式步入了產業應用階段。
但,站在2020年這個時間點,遷移學習研究/應用的未來在哪裡?
這是一個問題。而最能夠回答這個問題的,莫過於遷移學習的領軍人物——香港科技大學教授、微眾銀行首席人工智慧官楊強。
AI 科技評論就此採訪了楊強教授,就遷移學習「從0到1」的歷史發展、對於整個人工智慧領域發展的意義以及未來走向做了詳細探究,成就此文。
1
遷移學習,核心在於以「不變」應「萬變」
遷移學習,放到日常語境中,我們其實並不陌生,「舉一反三」、「照貓畫虎」等成語都是它的近義詞。
在機器學習中,遷移學習就是讓機器將在已知情況中學到的知識和積累的經驗,遷移到其他不同但相關的此前沒有遇到過的情況中解決新的問題。
它的核心在於,找到兩種情況之間的相似性,即不變量,以「不變」應「萬變」。
以楊強教授最常用的一個例子來進一步說明,在中國大陸,駕駛員的座位在左邊,靠馬路右側行駛,而在中國香港、英國等地區開車時,駕駛員的座位在右邊,靠馬路左側行駛。快速在這兩種駕駛方式中轉變的訣竅,在於找到不變量,進而把舊的知識適配到新的環境,而這裡不變量便是:無論在哪個國家和地區,駕駛員都靠馬路中間開車。
發展至今,遷移學習現已形成了一個系統性的學科,各大流派互為表里,並行發展。
大體上,遷移學習的分類可以按照特徵空間和/或標籤空間是否同構、按目標域有無標籤數據以及遷移學習採用的方法進行分類:
- 基於特徵空間和/或標籤空間是否同構 ,可將遷移學習分為同構遷移學習和異構遷移學習。
- 基於目標域中是否有標籤數據 ,可將遷移學習分為有監督遷移學習、半監督遷移學習、無監督遷移學習。
- 基於遷移學習採用的方法 ,即「如何遷移」,可以將遷移學習分為:1)基於實例的算法,其中遷移的知識對應於源實例中的權重;2)基於特徵的算法,其中遷移的知識對應於源域和目標域中特徵所共享的子空間;3)基於模型的算法(基於參數的遷移學習),其中遷移的知識嵌入源域模型的一部分中;4)基於關係的算法,其中遷移的知識對應於源域中實體之間特定的規則。
2
由來已久的歷史淵源及早期發展背景
早在2005年美國國防部高級研究計劃局DARPA 正式提出「Transfer Learning」這一術語之前,遷移學習這一概念便以各種不同的名稱出現在人工智慧領域的各種探索中,包括類比學習、基於案例的推理、知識重用和重建、終身機器學習、永無止境的學習和領域自適應等等。
在人工智慧以外,包括教育學、心理學、醫學、哲學等多個學科,都以不同的形式研究遷移學習這一概念,其中以教育學為例,教育工作者研究有效學習和教學建模的一個重要課題便是學習的遷移(Transfer of Learning),即研究人如何讓學生學會「如何學習」,並善於使用所學的知識來應對未來未知的情況。
當時, 教育學、心理學等領域尚不知道有人工智慧這個領域,而人工智慧領域也不知道這些領域也在研究這個主題,各個學科之間平行地發展著遷移學習這一概念,直到多年以後才逐漸走到一個匯聚點上。楊強教授在九十年代就涉足的一個AI分支叫做「基於例證的推理」(case-based reasoning), 其主旨就是通過對一個或少數案例的分析得出通用的知識,並適配到新的場景。這個技術在智能規劃領域尤為有效,但其缺點是需要很多專家知識的輸入。
據楊強教授回憶,在2000年初,遷移學習這一研究方向被提出時,機器學習領域的熱門方向是核函數——因為當時有一個很火的概念叫做支持向量機(Support Vector Machines),大部分人工智慧研究者都在做這個方向。
當時毅然決然選擇這一研究方向的他們,在這一研究領域顯得有點孤獨。
這種孤獨不僅體現在他們當時難以找到志同道合的研究者,也體現在他們需要為這個領域從頭開始收集數據集。
當時遷移學習領域沒有一個公認的數據集,楊強教授便帶著學生們在學校用WI-FI 做實時定位收集數據集。Wi-Fi定位數據集為遷移學習提供了一個很好的實驗場景,因為這些數據會隨時間、空間以及環境的變化發生很大的變化,比如白天收集的收據,等到晚上再訓練這些數據,這些數據便基本用不了了。這是因為數據在不同的時間、空間都會引起分布的變化。比如,當學生下課出教室時,就會給信號造成很大的干擾,之前訓練出來的模型也需要遷移了才能用;又如,在三樓收集的數據,到五樓可能也不能用了,這是因為Wi-Fi信號在空間發生了變化。這些數據的收集非常緩慢,所以,為了保證這些數據的有效性,他們常常沒日沒夜地在教學樓里收集數據集。
最後,他們還用這個數據集在數據挖掘學術會議IEEE ICDM 2007上舉辦了首個挑戰賽,該數據集也因此變成了世界公認的數據集。
而「Transfer Learning」的中文名「遷移學習」的正式誕生,則還要將時間線拉後到2007年。
2007年,楊強教授受CCF「龍星計劃」邀請做了一場關於「遷移學習」的報告,當時「Transfer Learning」還沒有統一的中文譯名,他便在講座上讓大家進行了一次投票,雖然獲得最高投票的並非「遷移學習」這一名詞,但是經過他的多方考量,還是決定採用「遷移學習」的中文譯名。
3
深度學習的興起,給遷移學習帶來了「春天」
時至今日,遷移學習在楊強教授等人的澆灌和培育下,已成為了一個系統性的學科以及人工智慧領域炙手可熱的研究方向之一。
而實際上,遷移學習能有如今的發展,離不開深度學習這「一把火」。
一方面,深度學習興起以後,大家意識到有必要把深度學習模型適配到新的任務和場景中,尤其是在視覺領域,當時加州伯克利大學有一群學者提出做視覺領域的遷移學習,其中國內有一位來自清華的博士後龍明勝恰好就在伯克利訪問,開始結合研究深度學習和遷移學習,引起了很多研究者的追隨。比如自然語言處理領域,就出現一個遷移學習的新方向——深度遷移學習。
2009年,自然語言處理領域的國際學術頂會 ACL 請楊強教授去做了一個遷移學習的主題演講,同一年,IJCAI也邀請楊強教授去做了遷移學習的特邀演講。
遷移學習在各大學術會議上成為一大「重頭戲」,也暗示著學術界各個領域的研究者在本領域把「金子」淘完以後,開始自然地往遷移學習這一研究方向靠攏。
另一方面,隨著深度學習的瓶頸越來越明顯,預訓練成為領域的一大研究重點,而預訓練和模型的自適應密切相關,比如2018年谷歌提出了BERT 模型——如果有足夠大的源領域數據,就很容易遷移到其他任意的新領域,而且新的領域還不需要標註那麼多數據。同一年Facebook 發現,遷移學習在視覺領域也能實現同樣的效果。
由此一來,工業界也逐漸發現遷移學習是非常有應用前景的方向,即將技術變成一種技術的解決方案,從而自動延伸出一個商業模式,比如說一個雲計算公司可以做出一個預訓練模型,然後應用者就可以用這個現成的預訓練模型做遷移,無論是商業模式還是收費模式都非常清楚。
現在,國內包括阿里、騰訊等雲計算公司都在往這個方向探索。
4
人工智慧通用化,遷移學習不可或缺
隨著深度學習的發展日益進入白熱化,局限性也日益暴露出來,不少研究者也發出「深度學習即將步入寒冬」的質疑,接下來人工智慧該朝什麼方向發展,也成為該領域研究者亟待思考的問題。
遷移學習,便是其中一個方向。
「人工智慧研究到最後,都會面臨一個問題,那就是模型是否能擴展到其此前從未見過的領域,即像人一樣擁有『舉一反三』的能力,而這就是遷移學習有可能實現的。」
楊強教授提到,這便是他和他的學生們當初選定遷移學習並堅信這個方向一定會成功的原因。
總而言之,遷移學習對於機器學習技術未來的發展,確實不可或缺,具體而言主要存在以下幾個必要性:
第一,人類智能的一項強大的特殊能力是能夠 從小數據中學習知識,以此利用和調整已有的「模型」,從而適配到新的場景,也就是所謂的遷移學習能力。例如,孩子可以僅從關於貓的很少的動畫中學習到貓的概念,並能快速而有效地將例子歸納成知識,去認識真實的貓。人工智慧也應該被賦予這樣的遷移學習能力。
第二,當前機器學習的成功應用依賴於大量有標籤數據的可用性,然而現實生活中往往缺少高質量、有標籤的數據, 如何讓模型在小數據上也能起到作用,這是機器走向真正智能的必經之路。
第三, 真正的智能系統不僅能夠在某個特定領域起到作用,還能夠將其能力泛化到其他領域中,這樣的系統才是可靠、可信賴的,這就要求智能系統能夠擁有舉一反三、融會貫通的能力。
第四,隨著智能的發展,個性化需求也會與日俱增,這 就需要解決人如何把個人化的小數據加入到通用系統中,以應用到個人化的場景中,實現智能的個性化應用,而遷移學習將是其中一個必不可少的工具。
作為一種新的機器學習範式,遷移學習算法在AI 朝著可擴展性、可靠性、通用化發展的道路上,將能夠承擔起非常關鍵和重要的角色,尤其是在目前面臨計算能力、數據和硬體等資源相對匱乏的現實條件下,遷移學習的作用不容忽視。
而現實應用方面,在包括但不限於計算機視覺、文本分類、行為識別、自然語言處理、室內定位、視頻監控、輿情分析、人機互動等領域,遷移學習都起到了非常重要的作用。
早在2016年,楊強教授便指出, 遷移學習會是深度學習後的下一個「熱點」。
他的這一觀點也得到了吳恩達等人的響應:在同年NIPS的一場Tutorial 上,吳恩達也表達了同樣的觀點:遷移學習將引領下一波機器學習技術。
如今,遷移學習的發展勢頭,也正在印證著他們在幾年前的這一預測。
5
通用化和自動化,是遷移學習尚未解決的兩大難題
每一個研究領域從萌芽到成熟,勢必都會經歷「過關斬將」的艱苦階段。遷移學習一路走來,自然也不例外。
2000年前後,當時遷移學習是一個小眾的研究方向,基本假設、測試標準、算法設計甚至名稱也各家各異。這就導致不同的算法和系統無法在同一個數學框架下進行比較。
對此,楊強教授等人花了十幾年的時間建立了遷移學習的統一數學框架,並且推動形成了大多數當前公認的遷移學習分類和比較測試的方法,從而讓該領域的研究者有據可循,並提出大量的遷移學習算法。
這其中,楊強教授的研究團隊包括了這部書的幾個主要作者。其中,戴文淵(現為第四範式公司總裁)在訪問香港科技大學楊強教授實驗室時,就開始了遷移學習的研究歷程,在此期間,設計出了「基於樣本的遷移」算法TradaBoost,並於近期在港科大完成了遷移學習研究的博士學位,是谷歌學術搜索上遷移學習領域的最高引作者之一。 潘嘉林(現為南洋理工大學副教授)在香港科技大學為博士生時因發明了「遷移因子分析」算法而名聲在外,同時也是遷移學習方向的高引作者。張宇(現為南方科技大學副教授)是多任務學習的專家,他的一篇關於多任務學習的概述也得到了學術界很高的引用。他們的遷移學習的工作,從不同角度奠定了這個研究方向的理論和算法基礎。
同時,楊強的另一位學生沈抖,現任百度集團執行副總裁併負責移動生態事業群組,也是遷移學習在搜索業務上的推動者,大力推動了從通用搜索領域到特殊搜索領域的知識遷移,填補了多項工業工程上的空白。
隨著遷移學習的研究工作日益增多,一些具體的挑戰也日益凸顯出來。
其中一個難題便是遷移學習在數學上的一個根本問題: 如何衡量兩個領域不同數據集間的距離。而這個距離根本上是在衡量兩個不同機率分布的距離,而不是簡單的歐式距離。
針對這一問題,潘嘉林和楊強教授的研究團隊提出了利用核函數空間的度量來加以解決。值得一提的是,這一解決方法也為後來很多更為先進的遷移學習算法提供了理論基礎,比如說,深度學習根據這一思路,可以按照兩個分布間的距離來決定在兩個神經網絡間如何遷移、遷移哪部分、遷移多少知識以及遷移的時間節奏等。這使得遷移學習從一個試探性的學科走向科學化,系統化。
另一個難題是 「負遷移」問題,即在實時遷移學習時,實現的效果可能會受到源領域的錯誤影響而下降。隨著近幾年人工智慧的發展,也為該問題的解決帶來了方向。一般來說,當源領域的數據逐漸加多的時候,遷移學習在目標領域的效果會大幅增強,而這一增強也能夠通過無監督或自監督學習的方法來實現,即不需要同時增加人工來處理數據,以此大幅減少「負遷移」問題。
然而,現在也還有一些研究者尚且無法找到突破點的挑戰和問題,包括現在還沒有一個通用的遷移學習算法能夠指導輸出一個自帶遷移性能的模型;還無法做到自動化遷移學習,即每遇到一個新領域,如何選擇源領域、遷移學習算法以及遷移策略等等,又會成為新一輪問題。
針對前者,楊強教授表示,這一難題的答案可能在於元學習,即在多個領域中學出一個通用的模型部分,使得它具有很強的遷移適配能力。值得一提的是,基於深度學習的、可遷移的元學習理論也是BENGIO(圖靈獎者)當下最感興趣的問題。隨著相關研究的開展,找到解決方案或許也只是時間的問題了。
而後者的探索同樣意義巨大,如果能夠開發出一個自動化的遷移學習算法,將會大大減少對專家的依賴,對於實現人工智慧的通用化也將有巨大的促進作用。戴文淵所領導的第四範式公司也在AutoML這一方向上持續領先,並會將其擴展到遷移學習的領域。
6
業已成熟化的遷移學習,還有哪些值得關注的研究趨勢
隨著遷移學習登上Gartner 曲線,標誌著該研究由學術研究正式進入了產業應用。而就遷移學習本身的學術研究而言,下一步還有哪些有前景的研究方法,同樣也備受關注。
就楊強教授等人看來,未來主要有以下五大研究趨勢:
第一, 現在遷移學習的衡量標準還需要在全球範圍推廣起來。過去,大家在衡量機器學習時還是簡單使用準確性或錯誤率來衡量,然而傳統機器學習算法的遷移能力普遍比較缺乏,所以在衡量標準上是否能以可靠性和魯棒性這樣的衡量標準來替代以前的標準呢?針對這一點,世界範圍內還達到統一的共識,因而是可以努力的方向。
第二, 需要找到一個像人的大腦一樣的能夠學習和遷移的通用模型。人類在學習一個新的技能時,往往能夠無意識地想起以往的經驗,看到一幅畫能聯想到一首詩,這些能力都是機器學習還不具備的,對此,現在有一個叫做終身學習的新研究領域,嘗試利用遷移學習讓模型不斷學習、不斷優化,這也是一個非常好的研究方向。
第三, 如何把邏輯知識和統計知識完美地結合起來,也是未來值得關注的一個方向。因為人類的遷移能力不僅僅依賴統計知識,很大程度上也依賴邏輯知識,比如說一些定理規律是能夠反過來增強遷移能力的,如果能實現邏輯知識和統計知識的有機結合,將會給遷移學習帶來很大的進展。
第四,現在的深度學習模型的魯棒性不高,樣本稍作改變預測結果就有可能發生很大變化。構建於深度學習之上的遷移學習也有類似的問題,因而 提高遷移學習的魯棒性會是未來的一個研究方向。
第五,隨著數據監管力度的加大, 數據的隱私性也會是一個重要問題,其中對於金融、醫療等行業尤為重要。這一點對遷移學習本身也有很大影響,如何在保證數據隱私性的情況下利用遷移學習來提高性能很值得關注的。目前已經有一些工作來研究這一問題,例如聯邦遷移學習,就是聯邦學習和遷移學習的有效結合,其通過在數據各方傳遞模型參數來確保數據的隱私性。
【廣而告知】
據了解,楊強教授領銜編著的全球首本遷移學習教材《Transfer Learning》已上市,而中文版也剛剛出版。這無疑是遷移學習領域標誌性的事件。
註:封面圖片《遷移時空之優山美地》: 出自潘軍鋒博士(Junfeng Pan)的人工智慧畫作,是基於宋代畫家王希孟的唯一傳世之作《千里江山圖》,用遷移學習的「風格遷移」,到美國優山美地國家公園的照片而成。這幅畫將中國畫風格遷移到西方名勝景點,寓意中國元素走向全世界。
《遷移學習》這本書彙集了楊強、戴文淵、張宇、潘嘉林等近三十位研究者的心血,對遷移學習的基本原理、研究流派、方法、應用都做了全面而深入的詮釋。
南京大學人工智慧學院院長周志華、創新工場董事長兼CEO 李開復、中國工程院院士高文、加拿大院士鄧力等人工智慧頂級專家,都紛紛為這本教材打Call——
無論對於學術界的學生及入門研究者系統學習、深入理解遷移學習這門學科,還是對於工業界研究者應用遷移學習這一工具而言,這本教材都具有非常重要的參考價值。
圖書章節的思維導圖
文章最後,AI 科技評論也為大家附上以楊強教授位為首的近三十位研究者對《遷移學習》一書的期許:
希望通過這本書給讀者們帶來對遷移學習最新最全的介紹,給學生們帶來對遷移學習的全方面了解,方便他們了解、學習以及使用遷移學習技術,從而可以啟迪他們用遷移學習的方式來解決面臨的學術或實際問題。也希望本書能方便研究者們全面了解遷移學習,以便啟迪他們更好地研究遷移學習,以及應用遷移學習來解決更多的應用問題。
中國科學院計算技術研究所博士生王晉東也一直做遷移學習的探索,他在2018年還撰寫過一份 《遷移學習簡明手冊》, 深入淺出地回顧了遷移學習的發展歷史並介紹了當時遷移學習的最新進展,廣受關注。本次,他也從學生的學習和入門的角度,分享了 《遷移學習》教材出版的意義:
學生在學習過程中,最重要的是「理解」和「應用」。
首先是對知識的深入理解,這包括問題定義、研究動機、數學形式化、模型構建、實驗驗證等基本過程。楊強教授的《遷移學習》教材以嚴謹的學術語言和深入淺出的講解模式,圍繞遷移學習的基本問題、方法和研究方向娓娓道來,使得我們的學習過程有條不紊、目標明確。
然後是對知識的靈活應用。《遷移學習》除了包含大量的學術研究內容之外,也從推薦系統、行為識別、計算機視覺、自然語言處理等重要的AI應用方向,為遷移學習的實際應用指明了方向。
因此,從學生的角度,如果你立志追求更深層次的學術研究,那麼《遷移學習》是你遇到問題和挑戰時可以尋求幫助的對象;如果你期望能用自己所學知識來改變世界,那麼《遷移學習》則可以在應用和落地方面,指導我們如何應用遷移學習技術來解決實際問題。
參考資料:
1、《Transfer Learning》, Qiang Yang , Yu Zhang , Wenyuan Dai , Sinno Jialin Pan ,Cambridge University Press
2、《A Survey on Transfer Learning》,Sinno Jialin Pan,Qiang Yang,https://www.cse.ust.hk/~qyang/Docs/2009/tkde_transfer_learning.pdf
3、《遷移學習簡明手冊》,王晉東,http://jd92.wang/assets/files/transfer_learning_tutorial_wjd.pdf
[ 讀者福利時間 ]
在本文留言區留言,談一談你對遷移學習的看法。
AI 科技評論將會在留言區選出 5 名讀者,每人送出《遷移學習》楊強教授簽名版本一本。
活動規則:
2. 留言內容會有篩選,例如「選我上去」等內容將不會被篩選,亦不會中獎。
3. 本活動時間為2020年7月22日 - 2020年7月30日(23:00),活動推送內僅允許中獎一次。
4. 圖書還處於預售階段,贈書預計會在8月5日左右陸續發出。
點
擊"閱讀原文"
,直達圖書購買連結