羅傑波、馬毅、華剛等談視覺研究那些事:是時候重新定義視覺了

2020-05-14     AI科技評論

原標題:羅傑波、馬毅、華剛等談視覺研究那些事:是時候重新定義視覺了

者 | 蔣寶尚

編輯 | 叢 末

視覺研究日益火爆,頂會論文是指明燈。

那麼作為頂會主席的研究員如何看待此領域的發展?5月14日上午,微軟亞洲研究院創研論壇 CVPR 2020 論文分享會中的圓桌討論環節邀請了五位擔任過視覺領域頂會主席的嘉賓。

五位嘉賓

他們就論文如何選題、如何看待arXiv、線上會議能否取代線下參會發表了看法。其中加州大學伯克利分校教授馬毅談到:目前頂會領域規模太過龐大,視覺研究是時候重新定義自己了,定義方向重新回到初衷,做高質量,有突破的研究

除此之外,美國羅徹斯特大學教授羅傑波、Wormpex Al Research副總裁兼首席科學家華剛、加州大學聖地亞哥分校教授華剛、加州大學聖地亞哥分校教授屠卓文、加州大學美熹德分校教授楊明玄也發表了看法。

1

論文選題不要湊熱鬧

大佬們談笑風生

深度學習是計算機視覺的研究技術之一,深度學習在各領域大火的時候,也影響到了計算機視覺,做學者的要有自己的原則, 羅傑波表示:不刷榜單,不湊熱鬧,明白學者在算力方面是比不過企業的,在選題的時候要找自己感興趣的話題,找自己認為獨特的點去做,不是說別人做什麼你就做什麼,寫作時要明白寫的東西是給別人看的,不是給你的導師,不是給學術帶頭人看的,要讓評審看得出妙處。

楊明玄說道:同意做有感興趣的事情,但是要量力而為,世界那麼大,事情那麼多,不要非做極度有挑戰的事情。另外,越刁鑽的老闆(導師)越能提高你論文通過率,畢竟他們看的論文多、經驗多。寫作技能要慢慢提高,多看paper,將它們的框架寫下來,可以把自己代入評審角色,看看自己的論文和別人有什麼不一樣,你自己會不會選你。經驗都是積攢出來的,就像一眼就能夠看出問題的老醫師。

馬毅補充到:寫文章,做研究有兩個階段,先學習做學問的技巧,把一個事情講清楚,把控住語言,最早的幾篇文章是在訓練自己的技巧,而不是做的研究有多麼了不起。過了這個坎之後,可以隨心所欲做自己想要做的研究,重點在於做研究而不是寫文章。另外,不要把評審看的太重,一些重量級學者,例如Yann LeCun的論文也有被「砍掉」的經歷,所以更重要的是你的問題有沒有價值,第二你有沒有把問題寫清楚。

寫作技巧有兩個建議:第一找你欣賞人的文章去follow,學習怎麼開頭、怎麼結尾、這麼承前啟後。第二點,把自己帶入評審的角色,做自己最嚴厲的評審,把自己訓練成最難說服自己的人,不要自我滿足,不停的反駁自己一下。

華剛總結到:1、論文選題,切莫跟風,要做有興趣,這樣才能放入精力;2、訓練自己的技巧,讀一些paper,知道好paper長什麼樣子,語言不一定華麗,讓一般的人讀懂;3、明確和導師的關係:判斷你的論文是否能接受,能增加你論文接受的幾率。

屠卓文最後補充到:寫文章的原則是:幫人幫己,幫助自己考慮問題,但更重要的是別人怎麼看你的文章,能不能幫助別人理解你的工作。並不是每一項工作都能達到很高的境界,在這過程更重要的是對得起自己的努力。

2

如何看待arXiv的文章?

arXiv 是一個收集物理學、數學、計算機科學與生物學論文預印本的網站,上面的文章未經同行評審,作者對文章多半保持嚴謹態度。但是也可以防止自己的想法在論文被收錄前被別人剽竊(將預稿上傳到 arXiv 作為預收錄)因此這就是個可以證明論文原創性(上傳時間戳)的文檔收錄網站。

那麼,頂會應該如何看待 arXiv ?華剛表示: arXiv 總體上有著非常積極的一面,因為它能夠讓工作更快分享。但是問題在於:上面有大量的文章,實際上並沒有經過同行審議,所以魚龍混雜。所以在看文章的時候需要自己有判決力,對個人來說一些論文只會看看標題,看看摘要再決定是否讀下去。

頂會如何看待arXiv這個問題,CVPR和ICCV都有自己的政策,投稿之前弄清楚規則就好。

馬毅表示:arXiv這個領域本身是物理和數學,它所對應的評審模式不是雙盲。既然允許論文post在arXiv上面,那麼頂會評審就不應該是雙盲,因為這會造成許多混亂。另外,它確實對領頂會審核帶來很多工作,因為作為領域主席和程序主席往往會在「這篇文章是誰的idea」糾結。所以現在頂會的投稿政策還並不適應現在這種情況。頂會應該及時改變,不能裝作看不到,可以向期刊一樣的單盲評審。

楊明玄表示:arXiv的問題已經講過很多次,但沒有人能夠去解決,目前是無解的狀態,除非有頂級大佬站出來說『我們現在改變主意了,我們以前講錯了,我們堅持的不是這樣,大家重新來過呀』。

單盲評審確實有點不公平,2002年NIPS 從單盲變成雙盲的時候,有些學校的論文錄取瞬間下降。

所以,arXiv是偽君子的做法

3

深度學習是否結合傳統基於符號的方法?

在討論完論文如何寫、如何選題、如何看待arXiv之後,圓桌論壇也向如何克服深度學習依賴數據的問題發起了討論。

能否將傳統基於符號的方法與深度學習結合起來從而增強魯棒性?能否將這種融合的發展路線帶入計算機視覺領域? 楊明玄提到,現在的深度學習方法或許沒有很強的魯棒性,實驗也不好做,但是總要有人做。

屠卓文表示:現在計算機視覺更多的是考慮CNN算法,當然RNN、Attention這些都在進來,但是這一套系列中視覺和語言還是不太一樣。計算機視覺改變一兩個pixel,不會改變太大的結果,但是在語言里改變一個字,那就是天壤之別。所以,計算機視覺和語言在同屬AI框架下,需要從各自的角度去考慮問題。

最終的融合還是需要的,但是要明確視覺和語言確實有很多不一樣的地方,如何考慮角度非常重要,現在這條路還在探索階段。

羅傑波表示:視覺分為:識別、描述、推理。現在CNN解決了很多大部分識別問題,計算機視覺進化到了描述問題,下一步會進化到推理問題。

現在已經有人將知識圖譜和常識這些東西加入模型,從而嘗試解決視覺系統或者AI系統到底是什麼樣子。也即從知識層面入手解決問題。

從計算機視覺的定義:從視覺信號里提取描述沒提到只是做識別。計算機視覺的初心是進化到語義,這就需要將語言和視覺知識融合起來,這是不可避免的,也是計算機視覺必須進化的方向。

馬毅表示,魯棒性問題和現在深度模型擬合數據,做黑盒系統以及依賴數據標籤有關。深度學習系統並不關心數據內在的描述表達,其模式只是input-output。數據導向的方法可能會解決一些問題,但仍然有缺陷。

例如,深度學習雖然在識別領域有些進展,但是現在3D領域是最大的軟肋,因為它對魯棒、精度要求非常高。

但是為什麼需要真正的魯棒性?馬毅提到因為一些場景必須要求魯棒,例如軍事、醫療、無人機都是關乎人命的。

4

計算機視覺頂會規模發展有何看法?

計算機視覺領域將來如何發展,對計算機視覺會議規模的發展有何看法?線上、線下參會有何優缺點?

羅傑波表示,線上會議好處非常多,但是有個致命的缺點是:沒有圍觀效應。Zoom此類的會議都是講座性質的,在交流方面還差一些,缺少那種大家對『海報』評論的氛圍。所以他認為線上會議在短時間還不會取代線下會議。

華剛博士對羅教授的觀點表示同意,他也對頂會會議規模發表了看法:其實每個研究都有一個核心,大家都圍繞這個核心開展自己的工作,當大量的研究者擠進來的時候,必將會擴展新的方向。

楊明玄教授也表示規模大、人數多非常好,但是conference和workshop方式還是不同,資深的人士都會去workshop,而會議吸引的更多是學生。

馬毅教授表示他非常懷念他當學生的那段日子,那時候的視覺會議有兩個特點,一個是小,即只有兩三百人,另一個特點是主題非常新,能帶給人非常多的啟發,給年輕人非常多挑戰。

馬毅教授還談到,對比現在視覺會議的情況,計算機視覺可能要重新定義自己了,領域發展壯大是好事情,但是從研究主題和研究社區可能要重新思考了,看看能否找到更激動人心的事情。

人數一多,從眾心理就非常嚴重。現在一些研究者的角色更像網紅,並不是在尋找真正的追求,但是尋找真正的突破才是做研究的初衷。

所以,不忘初心,正當時。

文章來源: https://twgreatdaily.com/zh-cn/ez9vFXIBiuFnsJQV5tqH.html