學NLP的人跑去CV頂會投稿，中了頂會一作，還是一位本科生？

2021-04-05 AI科技評論

作者 | 劉冰一

跨界發表頂會一作是一種怎樣的體驗？比如，學視覺的跑去搞語音，學語音的跑去搞自然語言處理，學語言處理的跑去搞視覺……

在多模態研究火熱的背景下，我們也發現了一位「跨界Boy」：專業學習與研究經歷都是NLP相關，卻跑到 CVPR 2021 投稿，中了人生中的第一篇頂會一作。一問，才知道：原來他是哈爾濱工業大學的一名本科在讀的大四學生！

他叫倪旻恆，來自哈工大計算機科學專業，大二曾加入哈工大社會計算與信息檢索研究中心，從事NLP研究；目前在微軟亞洲研究院NLC組實習生，從事多模態以及多語言研究。

AI被譽為新一輪技術革命的「頭雁」，相關研究保持突飛猛進態勢，越來越多的本科生也加入科研大軍行列，行者新舊更替是常事。倪旻恆作為新人之一，也堅定地選擇了這條路，最終，他的堅守換來了不錯的成績：目前，他已發表了四篇頂會論文（AAAI2020、IJCAI2020、AAAI2021、CVPR2021）。

在他CVPR 2021的一作論文（「M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training」）中，他與合作者共同提出了一個多任務、多語言、多模態預訓練模型——M3P，通過多任務學習與權值共享，將多語言預訓練與多模態預訓練結合到一個統一的框架中。該模型將學習一個通用表示，將出現在不同形式或不同語言中的對象映射到共同語義空間中的向量。

實驗評估表明，相比多模態英語預訓練的SOTA模型，M3P獲得了可比的結果；在非英語多模態任務上特別是低資源場景下，M3P也能獲得SOTA結果。

一路走來，倪旻恆的求學經歷與計算機學科淵源頗深：他從小學開始接觸計算機學科競賽，在競賽中屢屢獲獎培植信心和興趣；憑藉優秀的競賽成績，在高中獲得哈工大降分至一本線錄取政策的資格。對計算機的熱情與實踐，使他走上了人工智慧的研究道路。

從選擇專業、加入實驗室做科研，到獲得研究成果，倪旻恆的成長環節是自然承接的。從NLP跨界到CV，既是偶然，也是必然。

哈工大：科研的起點

1、AI 科技評論：能否談談您是怎樣和計算機結緣的嗎？

我的成長標籤一直都有「計算機」相關字眼，從來沒有糾結過所有和計算機學科相遇的選擇。

我從小就對計算機方面的東西自發地好奇，也經常參加一些計算機競賽。參與競賽可能跟區域教育環境有關係，因為我們當地初中、高中都很重視對學生綜合素質的培養，鼓勵學生參與競賽提升自己。

其實我的求學經歷和計算機學科競賽密不可分：我初、高中一直在參加全國信息學奧林匹克聯賽，高中階段我的成績在省內比較突出，就被選定為安徽省省代表隊成員去參加全國青少年奧林匹克信息學學科競賽的決賽，在決賽中的成績獲得了哈工大招生辦的認可，拿到了哈工大降分至一本線錄取的優惠政策。

在感興趣的基礎上又不斷積累知識經驗，長此以往就覺得自己在這方面做得還是不錯的。

2、AI 科技評論：在您進入哈工大以後，在計算機方面的學習是什麼樣的狀態呢？

哈工大的計算機算是學校的幾個王牌專業之一，同學們也都很厲害，大佬很多。轉專業時我們學院還吸收了全校各個專業拔尖或者同樣對計算機充滿熱情的同學，同學們本身很優秀還很努力，為爭取推免資格大家很早就開始準備，整個學院學習壓力非常大。

就我的學習而言，也被「內卷」浪潮裹挾向前，不過這也讓我進步很多。總體的步調是什麼階段做什麼事，每個階段對待課業、實驗和考試等都有不同的重要性排序，但我會儘量加快速度，不敢磨蹭，因為不知道會不會耽誤後面的事情。

我印象中最忙的場景是期末撞上截稿，我就一邊忙著趕實驗、改論文，一邊複習期末考試。截稿耽誤不得，因此主要是精力還是花在論文上面。最終期末考試還沒有複習，沒有辦法只能最後一天拚命地看。

3、AI 科技評論：您平時學習任務就很忙碌了，那您是在怎樣的機緣之下加入實驗室的呢？他們的准入標準高嗎？

在我大一的時候，參加了車萬翔老師組織的興趣小組，每期會有師兄去分享一些課程、工作的內容。這個興趣小組提供一些基礎指導，幫助大家過渡到可以做科研的程度。

圖註：倪旻恆做「從1+1到人工智慧」主題演講

通過這個興趣小組以及自己課外的學習，我不僅了解到了深度學習相關的很多知識也找到了機會參與了一些項目，如實驗室的LTP語言云平台的維護。一整年鍛鍊下來，我覺得自己也可以嘗試親身做一些科研工作。然後我就去找到了車萬翔老師，車老師很耐心地給予了幫助。車老師帶領我進實驗室後，還幫我聯繫了師兄手把手的教我怎樣做科研，也是從這開始我有了發表論文相關的認知。

車老師對本科生准入標準比較寬容，本著給更多同學機會的理念指導了很多像我一樣對科研有初步興趣的同學。

從我周圍的情況來看，本科生進入實驗室是一個普遍的現象。有些同學進實驗室科研目標很明確，也有一些同學本著嘗試的心態參加，中途發現自己並不適合就退出的，但還是有很多堅持下來並發表論文的。

微軟亞研：多模態研究啟發

4、AI 科技評論：您是怎麼想到去微軟亞洲研究院實習呢？能否給我們分享下過程和心得。

平時跟老師、前輩門聊天，他們會提供一些建議，鼓勵我開放視野、拓展研究方向。早就聽說了微軟亞洲研究院是一處科研「聖地」，於是我想到了申請去微軟亞洲研究所實習。我感覺還是挺順利的，申請郵件發送了之後很快收到了老師的回覆，面試也是非常順利，很快我就著手準備實習的生活了。

圖註：微軟亞洲研究院在14層醒目的logo

我是到微軟亞研這邊才接觸到多模態的嘛，前期碰到大大小小的問題。比如NLP與CV研究中存在研究方法的差異，特別是我做的預訓練的任務和之前小規模數據上的任務有很大的不同，經常出了問題半天沒意識到，等反應過來再去糾正非常影響進度；以及因為一個全新的方向需要大量的調研，之前的很多經驗也失去了作用，有時候很頭大……最後經過無數次的嘗試，才找到了一個令人滿意的方法。

哈工大實驗室和微軟亞洲研究院的兩段經歷帶給我的感受有所不同，這可能和我個人的成長階段有關係。我的第一篇論文是立波師兄帶我寫的，其實當時是我科研入門階段嘛，師兄傾向於手把手地教，卡死的幾率會低一些。在微軟亞洲研究所，他們提出了一些更高的要求，希望我可以拿出不一樣的解決方案。

算是良性循環吧，在科研上稍微取得一點點成績，其實會給我很多信心繼續做這些事。

5、AI 科技評論：關於CVPR21的《M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training》這篇論文，您能談一談具體的工作經歷嗎？

這篇文章我們設計了一個多任務、多語言、多模態的預訓練模型。做這個研究的最初想法呢，是基於現在多語言場景非常流行，預訓練模型也已經擴展到了多語言單模態場景或者單語言多模態場景中。我們就會思考能否將多語言場景和多模態場景結合在一起，通過多任務學習和權值共享，將多語言-單模態預訓練和單語言-多模態預訓練結合到一個統一的框架中，讓他們可以互相遷移學習到的知識，這樣將大為提升一些場合的運作效率。

然而，目前大規模的預訓練數據只有單一語言、多模態的數據，或者是多語言、單一模態的數據。這種數據會給我們的預期模型帶來一些問題：一是我們怎麼讓一個模型從這兩套數據裡面獲得信息；第二，即便我們可以從這個單一模型中獲取兩套獨立數據中學習到信息，我們只能從單語言多模態當中學習到多模態的信息，或從多語言單模態數據當中學習到多語言的信息，這樣就很難建立包含所有語言的語義空間與視覺空間的聯繫。為了解決這兩個挑戰，我們設計了M3P預訓練模型以及對應的MCT訓練目標，使得模型可以更好的學習多語言與多模態的知識。

為了驗證M3P的泛化能力，我們針對多語言圖文檢索(Multilingual Image-text Retrieval)任務對預訓練模型進行微調。評估表明，M3P（1）相比於多模態英語預訓練的SOTA模型，獲得了可比的結果；（2）在非英語多模態任務上特別是低資源場景下，獲得了SOTA結果。

當然，在這個過程中也有焦頭爛額的時候，但我是非常幸運的，指導我的段楠老師、黃浩洋老師都是善良且溫暖的，他們幫我樹立了正確的科研態度，推動我在科研的道路上繼續前進。另外，我自己在科研這條路上心態一直都很堅定，願意花費時間精力在科研上，碰到問題會積極地面對和解決。

6、AI 科技評論：就您目前的經驗來看，NLP研究和CV研究有些東西是可以互通的嗎？

對的，雖然CV和NLP的任務不太一樣，但有很多思想還是相似的，並且兩者現在很多的工作都基於深度學習，共通的東西也是很多的。現在研究兩者結合的「多模態」也是一個很火的方向，有許多工作將融合了兩邊的很多的方法，都取得了很好的效果。我們這篇文章就是一個很好的例子，我們將NLP中的多語言問題同多模態問題一起考慮了進來，這也說明了CV和NLP之間聯繫是可以很緊密的。

階段小結：初衷不改、不懼風浪

7、AI 科技評論：也快進入畢業季了，回顧總結本科這四年的學習生活，您最大的感受是什麼？有沒有什麼建議給師弟師妹們。

是的，畢業氛圍還是很濃重的，最近倒是經常參加一些集體活動——和朋友同學一起吃飯、看電影啊之類的。大三之前參與的頻率不會那麼高，大家聚在一起信馬由韁地胡謅海捧，感覺還是挺好的。最大的感受就是很多事情看起來簡單但自己親身嘗試之後才能知道其中的困難，但越是困難解決之後的成就感也越大，自己學到的也越多。

至於說給師弟師門們什麼建議，肯定是好好學習，多積累科研成果、實習經驗，凡事預則立，不預則廢嘛；除此之外，事情不要拖，越往後越忙，有什麼興趣愛好大一大二趕緊去體驗。

8、AI 科技評論：感覺您的日常全被學習和科研占據，那您日常生活中是一個枯燥的人嗎？您是怎麼評價自己的呢?

其實我並不是一個很枯燥的「科研僧」，不熟絡時可能會覺得我一本正經的，實際上我脾氣就很好，喜歡和同學到處浪。日常還算是個比較有趣的人，經常通過體驗各種各樣的事物讓自己保持開心，課業不那麼繁忙的時候會和室友打會兒遊戲，我喜歡玩地圖填色類的遊戲，還有刷刷刷的遊戲，比如P社家的群星、十字軍之王或者一些神奇的單機遊戲等。也很喜歡挑戰自己，承擔一些有難度的任務。

9、AI 科技評論：您未來會繼續從事相關的工作嗎？能不能分享一下自己的職業規劃。

在沒有接觸科研的時候時，我對研究本身沒什麼感覺，甚至還覺得做科研是一件很枯燥很無聊的事情。但是接觸了以後，我感受到了它別樣的魅力。師友們帶領我在研究過程中發生了很多有趣的故事，很多我至今都很難忘。我挺願意繼續探索多模態這個方向的，因為感覺這個方向要求研究者對很多不同領域都要有理解，我覺得非常有挑戰性。目前我的想法是繼續做學術，提高自己對於問題的認識，未來可能會去企業，或者有機會去研究院之類的，但這個東西現在講不清楚，計劃趕不上變化嘛。

圖註：哈工大夜景

相關連結：

1.http://augkodenii.com/

2.https://arxiv.org/pdf/2006.02635.pdf

學NLP的人跑去CV頂會投稿，中了頂會一作，還是一位本科生？

直播預告 | 明晚七點，相約阿里巴巴ACL 2021分享會（一）

ICCV 2021 DeeperAction挑戰賽

真正實現類人智能！美國工程院院士Jeff Hawkins：創造機器智能之路

Call for Papers丨KDD 2021 預訓練研討會，唐傑教授領銜

618如何避免剁手"X.O"洋酒？這個打假AI說：不怕，我1秒能識別20個！

亞馬遜首席科學家李沐：五年總結

強迫投稿者引用自己論文，IEEE高級會員被終身「禁賽」，網友：這事在國內很常見......

這5個數學猜想最早在30年前提出，如今AI證明它們都錯了

華人首次！清華姚班助理教授張煥晨獲得SIGMOD Jim Gray博士論文獎！

PapersWithCode和arXiv再次合作！可一鍵顯示論文使用的數據集

香港、澳洲三所高校 AI 博士生招生！還有研究助理和實習生等你加入......

ICML剛剛放榜！接收率僅21%為近五年最低，感謝審稿人不「殺」之恩

李飛飛高徒Andrej Karpathy用AI撰寫內心獨白：我的「進化」之路

直播預告 | 視聽感知學習魯棒性初探

香港、美國、新加坡三所高校新一輪 AI 博士生招生！快來一起發頂會論文

2021年Facebook博士生獎研金名單公布！一半獲獎者是華人博士生

摩根大通公布2021年AI研究博士生獎學金名單！獲獎華人博士生占1/3

預告 | 商湯學術公開課-AI畫質專題課程來襲！

網吹錢偉長寫論文「不必參考任何文獻」，但這的確不符合學術規範

重磅！Science &上海交大發布最新「全世界最前沿的125個科學問題」！

圖靈獎得主Jeffrey Ullman ：我是如何入坑計算機科學的？

學NLP的人跑去CV頂會投稿，中了頂會一作，還是一位本科生？

德撲AI大神、AAAI學術新星 Noam Brown：不完美信息多智能體場景下的AI研究

「倒計時1天」香港AI頂會報名開啟！楊強、譚鐵牛等6位院士18位專家，聯袂報告