百度計算機視覺首席科學家王井東:在視覺的競技場,研究與落地沒有明顯的界限

2022-08-15     AI掘金志

原標題:百度計算機視覺首席科學家王井東:在視覺的競技場,研究與落地沒有明顯的界限

在王井東看來,百度搜尋引擎、自動駕駛、智能雲、小度等等不同的業務線中,有共同的視覺研究難題。

作者 | 彩嫻、李梅

編輯 | 岑峰

去年年底,2022年 IEEE Fellow(全球電子與電氣工程領域最高榮譽)名單發布,有人在知乎上評論

「王井東老師終於當選了,實至名歸。」

在中國計算機視覺領域,王井東幾乎是一個無人不知、無人不曉的研究者。在學術圈,人們會討論他在 2019 年視覺算法數不勝數之際仍能占據群雄的 HRNet(一個用於視覺識別的高解析度神經網絡);在工業界,他在微軟亞洲研究院(MSRA)視覺計算組的工作多年,後加入百度,負責視覺領域的技術研究工作,為百度的多線業務提供視覺技術支持。

圖註:王井東

無論在學術研究還是技術落地上,王井東都取得了不錯的成就。至今,他的谷歌學術被引數超過三萬次,對於主要為解決產品問題而開展科研工作、發論文只是「茶餘飯後」之消遣的企業科學家來說,這是一個相當難得的成績。

AI掘金志近日與王井東的交談,王井東認為,百度的搜尋引擎、自動駕駛、語音助手等等不同業務線雖然場景應用有所差異,但彼此之間也存在共通的視覺問題。他從微軟離開,加入百度,一方面便是看中了百度這個能夠研究貫穿不同場景的獨一視覺問題的平台。

王井東憑什麼引領百度的視覺研究?百度的視覺布局又將朝著什麼樣的方向發展?

與天才同行

江蘇人王井東是一個名副其實的理工科學霸。

他的本科與碩士就讀於清華大學自動化系(國內最早研究人工智慧的院系之一),碩士導師為張長水,張長水的學生里就包括目前的阿里巴巴技術副總裁賈揚清。博士階段,他就讀於香港科技大學計算機視覺與圖形實驗室,該實驗室走出來的視覺大拿包括思謀科技創始人賈佳亞、曠視前上海研究院院長危夷晨、AutoX創始人肖健雄、阿里巴巴前計算機視覺首席科學家譚平等人。

走出校園後,他加入微軟亞洲研究院。從微軟亞洲研究院出來的知名視覺研究者包括沈向洋、湯曉鷗、孫劍、馬毅、屠卓文、華剛、何愷明等人。到微軟亞研實習的青年學生對王井東的評價是:「井東老師對細節要求非常嚴格,是一個非常嚴謹的科研工作者。」

當初選擇研究計算機視覺,一個主要的契機是2003年他在微軟亞研跟著沈向洋實習時,儘管視覺的熱浪還未在中國掀起,但周圍許多優秀的人都在研究視覺,這使他自然而然地覺得:在未來,計算機視覺一定是一個潛力無限的發展方向。

所以,2004年碩士畢業後,在沈向洋的推薦下,他就去了香港科技大學讀博,師從權龍做視覺研究。

值得一提的是,權龍與沈向洋都是早期進入視覺領域的中國科學家。權龍早年在法國國家信息與自動化研究所取得博士學位,法國是歐洲視覺研究最重要的發源地之一,權龍得天獨厚,吸收了許多前沿的視覺知識,在2001年回到香港科技大學建立視覺實驗室(即VisGraph),該實驗室與湯曉鷗在香港中文大學建立的多媒體實驗室(MMLab)是早期代表中國學者參與國際視覺頂會的中堅力量。

圖註:王井東(右)與博士導師權龍(左)

王井東在清華與港科大的兩段學習經歷都對他產生了較大的影響。

1997年,王井東考入清華大學自動化系,本碩連讀。自動化與視覺研究在外界看起來似乎毫無關聯,但在王井東看來,視覺與自動化及控制的淵源十分深厚,這體現在兩方面:

一是機器人等硬體控制中視覺對識別、定位與導航的重要作用(近年來如日中天的自動駕駛離不開視覺感知算法便是一個典型的例子);

二是清華自動化系早期有許多研究模式識別的學者,王井東的碩士導師張長水便是其中之一,而張長水的導師是中國科學院技術科學部委員(院士)常迥教授。

在王井東碩士期間,神經網絡還沒火,但他的導師張長水就已經在神經網絡方向做了許多出色的工作。2000年,張長水與閻平凡合著出版了《人工神經網絡與模擬進化計算》一書。張長水還曾邀請一些國外的學者到清華全英文講授神經網絡的前沿課程,王井東由此第一次了解到用來訓練多層神經網絡的反向傳播算法及其工作機制。

2004年,王井東和同學李建國就在張長水、邊肇祺的指導下,在人工智慧國際頂會 ICML 上發表了「Probabilistic Tangent Subspace: A Unified View」一文。要知道,當時能在 ICML 之類頂會上留名的人,屈指可數。

那時王井東在模式識別方向學到的許多知識,對他如今做研究仍有重要影響。例如,當時模式識別中一統天下的「核方法」(Kernel Method),如今雖然已經很少用於視覺研究,但「核方法的思想仍然存在於今天的深度學習中,人工智慧領域現在用得比較多的Transformer架構在某種意義上也與之相關」。再如矩陣分析方法,如今被用在注意力加速的任務中,王井東本人也用矩陣分析來研究將平方級的複雜度變為線性的複雜度的方法,來優化速度。

去了港科大讀博後,王井東的直觀體驗到的一個變化是,與清華的實驗室側重機器學習不同,港科大的VisGraph實驗室最大的特色是:應用。實驗室的研究方向都是計算機視覺或計算機圖形學。在這樣的環境中,王井東對視覺的理解也有了更多新的思考。

博士三年,王井東主要研究機器學習與計算機視覺,用圖、半監督等方法處理圖像分割問題。那時,雖然人在香港,但他與清華、微軟亞研的夥伴都保持著密切的研究交流。2006年,王井東與沈向洋等微軟研究員的合作(「Picture Collage」),以及他與張長水的工作(「Semi-Supervised Classification Using Linear Neighborhood Propagation」),就一同被視覺頂會 CVPR 2016 接收。

當年的CVPR在美國紐約召開,王井東記得那時參會的中國學者已經不少。CVPR是六月舉行。印象中,許多中國學者吃不慣西餐,於是他們一行人就彙集了來參會的中國學者和當時在國外的中國教授和學生,大家一起去找中餐館吃飯、聊研究與參會的見聞。

王井東是站在視覺騰飛的起點、並見證視覺在全球走向輝煌發展的一批研究者中的一員。在回憶中,他告訴雷峰網 AI掘金志,那時選擇計算機視覺真的並不見得是一個明智的選擇。從大的視角回看,王井東無疑是一個少數者,但一個人的生活並不觸及太廣的半徑,所以對青年王井東來說,他在視覺研究上並不孤獨。

微軟十四年:視覺技術落地

2007年,王井東博士畢業,回到了北京,加入微軟亞洲研究院。

王井東將他在微軟亞研的研究分為兩個階段,也就是「7+7」(王井東一共在微軟亞研工作了十四年):第一個七年,他主要研究計算機視覺在多媒體搜索的應用;第二個七年,他的研究則聚焦在了深度學習和計算機視覺核心問題上。

  • 第一個七年

第一個七年

2007年,多媒體搜索剛剛展示出需求與輪廓,當時的必應還是一個尚待開發的業務,沈向洋被分派到必應的研發團隊負責技術。由於擅長計算機視覺,王井東被派去了解決多媒體搜索中的圖像檢索難題。

那時圖像搜索功能不盡如人意,如果用戶想搜索一張「藍天白雲下,一隻狗臥在綠色的草地上」的圖像,在搜索欄里敲下這樣一串文字時,搜尋引擎大機率無法理解用戶的搜索意圖。為了解決這個問題,他與團隊研發了基於草圖的圖像檢索技術和開發一個用戶交互的工具:用戶可以畫一個顏色草圖,如用綠色來表達草地這一搜索意圖,相比純文本搜索方法取得了明顯的效果提升。

這個思路並不新,早在上世紀就有基於草圖的多媒體搜索方法,但用在商業搜尋引擎上還是第一次。

王井東的一個體會是,在企業做研究,只有更好,沒有最好。就拿上述這個例子來說,第一代用戶交互方式還是繁瑣,為了更簡化,他和團隊又繼續開發了一種顏色過濾器來使用戶交互更加簡單:例如,如果你希望圖片中的狗是藍色的,那麼就可以設置顏色篩選來獲得包含藍色的狗的圖片。這項功能至今仍被應用於必應中。

圍繞圖像搜索,王井東從應用轉向基礎關鍵算法研究,取得了更大的成績。

在搜索中,一個圖像(即一個查詢項)通常會被轉化為一個向量,資料庫中包含著成百上千億的向量,如何快速搜索就成了一個問題。自2009年起,王井東開始研究搜索應用中的基礎問題之一近似最近鄰算法(Approximate Nearest Neighbor,ANN)。

ANN搜索的目標是在一個定義的距離度量下,從資料庫中尋找出離查詢項的距離最近項。王井東觀察到一個有趣的事實:如果一個向量靠近查詢項的向量,那麼這個向量的相鄰向量也可能靠近查詢項的向量。這個思路跟「六度分割理論」(小世界理論)類似,即世界上任何互不相識的兩人,只需要很少的中間人就能夠建立起聯繫。

受此啟發,王井東設計了一種ANN搜索算法,以近鄰圖(Neighborhood Graph)作為索引來進行圖像搜索。結果,該算法帶來的搜索效果非常驚艷。王井東回憶,當時他還以為是測試出了問題,連忙又重複核查了一下,最終他驚喜地發現,這個辦法比當時號稱效果最佳的其他同樣基於kd-trees的方法要好很多。

2014年,這個算法已經應用在必應的圖像搜索和廣告中,是第一個在商業產品中成功應用基於近鄰圖的最近鄰搜索算法。後來,微軟的許多產品包括網頁搜索也採用了該算法作為核心組件。目前,許多商業搜索以及推薦產品都採用了基於近鄰圖的近似最近鄰搜索算法。

  • 第二個七年

第二個七年

2014年,在多媒體搜索上研究多年後,王井東將目光投向了另一個發展正熱的新方向——深度學習。

事實上,據王井東回憶,早在2005年,他就已經試過用人工智慧來解決實際問題。那一年,王井東還在香港讀博時,他的一位清華師兄回國創業,將卷積神經網絡(CNN)用於車牌識別,他在實習時也參與了其中。

探索初期,王井東的主要工作是把深度學習算法的端到端(end-to-end)性質拓展到一些新的應用上。不過很快,他就發現了一個更重要的研究課題:視覺網絡架構的設計。網絡架構的設計是深度學習的核心問題之一。當時許多人都在思考:如何讓神經網絡變得更深。

王井東從2015年開始,則思考利用神經網絡解決分類以外的視覺問題。

2015年前後,視覺領域的普遍做法是使用圖像分類的網絡來解決分類以外的分割、檢測、姿態估計等問題,如2012年的 AlexNet、2014年的 GoogleNet、2015年的ResNet等架構。但他發現,分類網絡存在一個顯而易見但始終未被提出的弊端:分類網絡結構在學習高解析度表示時,先將解析度慢慢變小,然後通過上採樣的方法在分割等任務中逐步從低解析度恢復高解析度,這種方法所獲得的特徵空間精度很低。

對此,王井東提出了自己的疑問:能不能不降解析度而保持高解析度?能不能不依賴分類網絡?

那時大家未必沒有同樣的疑問,保持高解析度的想法也並不複雜,但考慮到分類的網絡已經訓練得很好,用到其他任務中更容易訓練,所以學術界與工業界都沒有人邁出改變的一步。但是,不破不立,王井東心想,若能直接學習高解析度的表示,一定能大幅改進視覺任務的解決。

經過兩三年的思路醞釀,2018年,王井東感到萬事俱備,便領導團隊開始著手設計一個學習高解析度表示的通用視覺架構。2019年,HRNet在CVPR上橫空出世,驚艷眾人。它是王井東在視覺研究上的又一大高峰,引用數在短短三年內超過了3000次。

論文地址:https://jingdongwang2017.gith

ub.io/Pubs/TPAMI-HRNet.pdf

HRNet不再沿用以往的分類架構從低解析度恢復到高解析度的設計規則,而是讓高中低解析度不停交互融合,使高解析度可以獲得低解析度語義信息較強的表征,低解析度可以獲得高解析度的空間精度比較強的表征,能夠從頭就保持高解析度。同時,由於 HRNet不以分類任務出發點,所以也具有更強的通用性,廣泛適用於分割、檢測、姿態估計等位置敏感的一般視覺任務。這項工作發布以後,在學術界與工業界都引起了廣泛的討論。

HRNet與王井東之前所提出的網絡架構看起來相似。從2015年開始,他就採用多路( Multi-branch)方法設計出了DFN(Deeply-fused nets,深度融合網絡)、IGC(Interleaved Group Convolution,交錯組卷積)等視覺網絡架構,HRNet 也同樣採用了多路方法,所以有相通之處,但本質上,HRNet展示了一種研究思維上的轉變。

後來,HRNet視覺網絡架構被微軟在內的許多公司採用,拿去解決實際問題,如自動駕駛、3D點雲識別、人體姿態估計、衛星圖像分割、OCR表單識別與檢測等等。可以說,HRNet兼顧了學術研究突破的優雅與解決實際問題的效用,是仰望天空,也是腳踏實地。

可以說,王井東雖然身處產業界,但並不受實際問題的約束。相反,他的例子證明,在工業界,傑出的研究者也能有科研上的創新,「工程師」也能成為「科學家」。他入選 2022 年 IEEE Fellow 的理由,就是對視覺內容理解與檢索的傑出貢獻。

截至發稿,王井東一共有6篇谷歌學術引用過千的論文,但他談道:「在企業做研究,我們都是圍繞實際問題出發,在解決問題的過程提出新的方法、新的思路。我更享受我的研究能夠解決實際的問題。」

他還提到,在計算機視覺領域,近年來許多偉大的工作都是來源於工業界,而不是學術界。這說明,視覺領域的研究,也包含所謂的「感知智能」,要取得大的突破,必須要與實際的應用問題緊密結合,用實際需求指導學術研究。

走進百度視覺

從微軟離開後,王井東選擇加入國內人工智慧研發實力最強的平台之一:百度。

作為國內最早押注AI技術的網際網路企業,百度在多個熱門的人工智慧賽道都有布局:語言、語音、視覺……同時,百度的搜尋引擎、自動駕駛、智能雲、小度等等不同業務線,也為每一項技術提供了豐富的落地場景。

王井東坦誠,他對不同方向裡面的共性問題最感興趣,比如,視覺研究中的檢測與分割是OCR與自動駕駛都關注的問題,表征學習又是檢測、分割、搜索等問題里的核心。儘管每個任務都有一些小的差異,但一旦從不同任務的共性問題中提取出基礎技術,這項技術就能支撐多個應用。

他直接隸屬於百度的技術中台,他的團隊對內支持百度搜索、自動駕駛、智能雲、小度等多個業務部門的視覺應用,對外通過飛槳和智能雲賦能工業製造、智慧城市、智慧金融等產業領域,這一點很吸引王井東。他告訴雷峰網 AI掘金志,「一干多支」,這也是他加入百度後開展視覺研究的基本思路。

從去年9月到現在,王井東在百度的時間不到一年,但在帶領百度視覺發展上已經卓有成就。

作為一個浸潤於卓越中成長的領軍者,王井東對百度視覺目前最大的影響,可能就是對前沿研究趨勢的把握與緊跟時代的實踐,比如主推學術界與工業界都密切關注的、減少對數據依賴的自監督學習方法、以及視覺大模型。

在實際應用中,自監督學習帶來的好處是顯然的:它可以減少人工對數據的標註,降低勞動力成本,提升研發效率。在2020年的 ICLR 大會上,圖靈獎得主Yann LeCun 和Yoshua Bengio就曾搖旗吶喊「自監督學習是 AI 的未來」。王井東對自監督也表現出很大的興趣和信心,他認為,自監督學習能夠從未標註的數據中學到知識,這給了大家無限的想像力。

加入百度後,他帶領百度團隊與北京大學、香港大學合作,提出一種自監督表征學習算法:CAE(Context Autoencoder)、新型掩碼圖像建模(MIM)方法,這項工作已經開源在百度飛漿平台上。在百度OCR識別技術中,就採用了自監督學習算法 CAE,效果上取得了突破性的提升。

「自監督在OCR中的應用只是第一步,我們希望對通用的圖像自監督學習有更深刻的理解。」王井東正在努力推進的一個方向,是對自監督學習做數據規模化,從大量數據中學到有用的知識,這也是整個業界關注的問題。在將來,他希望能夠在因果關係、預測等更高級的認知學習方面有所進展。

王井東加入百度後的另一個成就,是打造通用的視覺大模型。在今年的WAVE SUMMIT 深度學習開發者峰會上,他領導團隊開發的視覺大模型發布,在百度文心大模型的版圖中強化了視覺的一角。

在自動駕駛領域,王井東也帶領團隊開展了一些工作。例如,今年,王井東帶領的百度視覺團隊就與華中科技大學的研究人員合作,從端到端方案中的一個代表即 BEV(Birds-Eye-View)語義分割出發,提出了一個 GitNet 架構來解決自動駕駛中的感知問題。這項工作發表在了今年的視覺頂會 ECCV 上。

儘管加入百度的時間還不長,但上述的工作已足以詮釋王井東在企業做研究「仰望星空、腳踏實地」的經驗與精神。王井東本人也對雷峰網 AI掘金志表示,在企業里做研究,有的人會說產品需求是一種制約,有的人也會說這是一種可以利用的資源,關鍵在於個人如何看待。

而從王井東的履歷來看,顯然他是看向了後者。

以下是AI掘金志與王井東探討視覺發展技術的部分問答整理:

AI掘金志:基於未來幾年的計算機視覺發展趨勢,您在百度的研究規劃是什麼?您重點關注什麼?

王井東:第一,從方法上講,大家越來越趨於Transformer這個方向。Transformer幾乎統一了自然語言、視覺、語音等等不同的信號,大家都希望有一個統一的框架出現,這是我們關注的。

第二是規模化。你要處理更多的數據,那麼你能不能從海量的數據中學到你想要的知識。歸納起來,就是數據量給你的知識規模,同時也包括模型參數的規模化。規模化是未來視覺里備受關注的一個方向。

第三個就是我剛才討論的自監督,因為它給大家帶來了無限的想像力。

AI掘金志 :您怎麼看「通用人工智慧」(GAI)?

王井東:我其實覺得現在談通用人工智慧還是有點太早了。從我們的路徑來講,我們希望一步一個腳印,把每個環節都弄透了,我們認為可以的時候,再朝著通用人工智慧的方向走。當然每個人的觀點是不一樣的。

我自己很喜歡 Transformer。Transformer 裡面最關鍵的是注意力(Attention)。為什麼我喜歡它呢?很多年前,我跟權龍老師讀博時,他就說,視覺識別領域最重要的就是兩個點,一個是特徵,一個是匹配。而Attention天然就是干這個事兒的。Attention本身就是一個搜索、匹配的過程。同時,在Transformer裡面,它也是學習特徵的過程。我自己看好Transformer的一個很大的原因是,它把特徵與匹配完美地融合到了 Attention 機制里。所以我覺得將來它有可能成為網絡結構統一的助推。

另外,Attention非常直觀、可解釋性強。以前大家都說CNN要往可解釋性的方向走,要能解釋一些網絡結構,要費很多功夫去解釋。但Attention可以直接告訴你,它本來就是可解釋的,是非常直觀的。

Transformer作為Backbone(骨幹網絡),真的比CNN有優勢嗎?這是個值得思考的問題。我們去年上半年做了一些工作,分析了transformer中local (window) attention 跟卷積神經網絡(特別是depth-wise convolution)之間的關係。

論文地址:https://arxiv.org/pdf/2106.04263.pdf

後來發表在今年的ICLR(機器學習領域的一個重要會議)。這項工作應用了矩陣分析裡面的一些知識,當你把local attention跟depth-wise convolution寫成矩陣的形式,就會發現它們很相像,某種意義上是等價的。我們這項工作表明,基於local attention 的Transformer,在結果和效率上跟卷積很類似,沒有誰強誰弱。

前幾年,我們還做過一個工作,提出了一個方法「OCRNet」(不是「光學字符識別」)。在這個工作中,我們就用了一個attention的機制去做分割,後來我們研究目標的檢測方法 DERT,提出了Conditional DERT 方法,發現其實attention工作的原理跟人去做目標檢測的原理是一樣的。

什麼意思呢?我們在做目標檢測時,直觀上也要找到目標的bounding box,即最上面一條邊、最左邊一條邊、最下面一條邊和最右邊一條邊,那我們怎麼去找?我們人工去標註的時候是會找你最上面、最下面、最左邊、最右邊的那個點分別在哪,而 Conditional DERT在檢測時也是這樣做的。這非常有意思,這也是為什麼我覺得 Transformer 在視覺識別領域有可能成為一個統一框架的原因之一。

AI掘金志 :您覺得在百度研究視覺有什麼獨特的機會與優勢?

王井東:我談談我自己的一些感受,每個人的感受可能是不太一樣的。

對我來講,我覺得,首先你在公司做計算機視覺,得有一個很好的應用背景,百度正好提供了非常豐富的應用需求。

其次,百度在計算機視覺上有很好的積累,2012年成立了多媒體部,2013年成立了深度學習研究院(IDL),百度有很強的技術積累。計算機視覺在今天離不開深度學習,而百度有很強的深度學習平台(Paddle Paddle),還有深度學習技術與應用國家工程研究中心。

第三點,就是百度有很強、很濃厚的技術基因,對技術有信仰。可能不僅僅是計算機視覺的技術,其他技術也是一樣,很多有技術理想的人去做事情,這是我目前看到的一些特點。

AI掘金志 :談談您多年來做科研的感受。

王井東:科研創新是搜索的過程。科研創新本質上不是在創造新東西,事實上那些東西本來就在,只是被發現了。科研創新是尋找的過程,就像捉迷藏,只有不停的找,才可能找到答案。

勤于思考。創新就是做些未知的東西,沒有現成的可以參考。這個時候需要思考,通過寫作來深度思考、完善思考、修改思考,分享寫作的內容以得到更加有效的反饋,最終提升做事的效率。

做事要夠狠。更多的是對自己要狠,要有把事情徹底搞清楚的勇氣和自己能夠搞清楚的信心。也是跟自己過不去,在做一些自己不知道答案是什麼、甚至可能沒有答案的事情,這是一個經歷無數次失敗後才可以看到成功的過程。

推薦閱讀

AI 商業模式的脫靶、崩塌、救贖

算法商城,到底是不是偽命題?

文章來源: https://twgreatdaily.com/052ea24095f72263757bbd7e9d683e58.html