FastSpeech系列一作:另闢蹊徑的半個小鎮做題家,不出國,不讀博

2021-02-19     AI科技評論

原標題:FastSpeech系列一作:另闢蹊徑的半個小鎮做題家,不出國,不讀博

導語: 作為少數獲得2020年度百度獎學金和位元組獎學計劃雙獎的碩士生之一,任意對自己的人生定位一向清晰:不出國,不讀博,畢業即就業。而這並不是往屆浙大竺院多數學生的優先選擇

作者 | 陳彩嫻

「如果你付出很多努力並拿了高分,而這些努力對你也有幫助,那我覺得這不是惡性競爭。」

作為計算機科學專業的學生,任意談到,他對高校「內卷」現象的感受並不是很深。他認為,「如果在努力完成課堂大作業的過程中,大家能有許多收穫,那也稱不上『內卷』」。

在2020年,與「內卷」熱度不相上下的網際網路流行詞是「小鎮做題家」。從某種意義上講,兩者都在試圖傳遞國內高校學生的生存困境:激烈的競爭,有限的選擇,匱乏的資源;有些人甚至同時具備兩種身份:既是小鎮做題家,又是內卷獵物。而從成長軌跡來看,任意介於兩者之間。

目前就讀於浙江大學計算機科學專業碩士二年級的任意,自稱是「半個小鎮做題家」:他從小在浙江省台州市長大,「雖然台州的經濟不算落後,但畢竟是個小城市」;上高中時,他也很愛刷題,刷題數量可能排在「全校數一數二」。

但同時,他又是一名積極的競賽分子,參加各種信息競賽、物理競賽與生物競賽等等,曾獲得2013年 NOIP 浙江賽區一等獎。高中的競賽經歷讓他看到:人生不是只有高考這一條路。這種「另闢蹊徑」的思維,與早期體驗多種可能而精力充沛的心性,也許是使任意突破刻板人生、開創自我成長的主要原因之一。

2015年,任意憑藉自主招生和優異的高考成績保送浙江大學竺可楨學院混合班。從小就熱愛計算機的他在大二選專業時,毫不猶豫地選擇了計算機科學與技術專業。與周圍熱衷於進實驗室做科研、刷托福、準備申請出國的同學相比,他在本科階段除了上課就是在校外實習,自認為成績過得去就行,畢竟「計算機課程拿高分對個人的技術提升不一定有很大幫助」。

大四期間參加的微軟亞洲研究院「乘風計劃」,使他決定繼續攻讀研究生。儘管三年內發了 15 篇AI頂會論文,一作 7 篇,但任意對碩士畢業後的人生規劃還是沒有改變:不出國,不讀博,⼀畢業就⼯作,希望儘早進入業界做出真正有利於業界發展的事

1

不安分的竺院少年

浙江大學竺可楨學院(以下簡稱「竺院」)成立於2000年5月,以浙大前校長竺可楨的名字命名,是國內著名的本科學霸養成基地之一。

2015年,任意憑藉全省第190名的優異高考成績,從台州市路橋中學考入浙大竺院混合班。

以當年的高考成績,他可以選擇國內絕大多數高校,但他最終選擇浙大,原因很簡單:父親也是浙大畢業的,對浙大比較有感情;二是覺得杭州不錯,離家近。

對於本科生,竺院的培養方式是:大一先進行大類培養,大二開始任選專業,選本科導師,進實驗室做科研。

雖然是大類培養,但任意剛上大學就決定選擇計算機專業。

作為一名95後,計算機對任意來說並不陌生:自從小學三年級家裡有了電腦開始,就喜歡搗鼓各種軟體,喜歡在電腦上打遊戲;第一次接觸編程是在初三,參與一個自來水公司抄表機軟體開發項目;高中參加了信息學競賽,高二便獲得 NOIP 浙江賽區一等獎。

根據2018年竺院就業報告顯示,竺院畢業生的國內外深造率為88.76%,僅有7.49%的畢業生是直接就業。任意介紹,大二時,身邊的很多同學(尤其是想出國留學的同學)都已經選擇進入實驗室做科研,考托福、準備GRE,為讀研深造做準備。而他當時並沒有決定讀研深造從事科研,反而更偏向畢業直接工作。因此,在他當時看來,科研經歷可有可無,於是找了一份創業公司(Dashbase)的遠程實習,做工程開發。

憑藉浙大的名聲,竺院的發展平台和大一就已獲得的國家獎學金等榮譽,若任意選擇出國,拿名校offer應當是輕而易舉。他提到,剛上大二時也考慮過出國,後來放棄出國的打算,也是基於自己的情況進行了仔細權衡:

任意談到,他本身算是從小城市出來的,上大學前所接受的英語教育比不上杭州、寧波等大城市。在竺院招進來的學生中,除了排名在各省前500名的優秀高考錄取生,還有從各省重點外國語學校保送進來的外語保送生。任意的英語雖然不算差,但與同級的外語保送生相比,也絕對不占優勢。

「相比花很多時間去刷托福題目,以卵擊石,我覺得不如做自己擅長和最喜歡的事,在自己的專業上獲得成就感。」

另外,出國有兩種選擇,一是讀碩士,二是讀博士。

如果讀碩士,路線基本是:讀一年半到兩年的 CS 碩士,畢業後去谷歌、Facebook等大廠做開發工程,工作兩三年後,要麼回國,要麼拿到工作簽或綠卡繼續在國外生活;

至於讀博,任意感覺不確定性比較大,因為要讀5年,時間太長,並且以大三申請季時的科研經歷(沒有足夠的科研經歷與頂會論文的「撐腰」),他認為自己很難拿到國外好學校的博士offer。

出國深造的兩條路線似乎都不符合他對人生的期望,異國他鄉未必是追夢的理想樂園。因此,他沒有再多想,就放棄了出國的打算。

既然不出國,那就去工業界看看。

大二那會,任意投了許多大公司的實習崗位,但由於年級太低,沒有拿到理想的offer。一次偶然,他與高中時一起打競賽的學長吃飯。這位學長當時還在讀大三,雖然沒有畢業,但由於技術能力過硬,已經在 Dashbase (一家總部位於矽谷的創業公司)擔任杭州分公司的負責人。他們聊到找實習的事,學長提議他可以 Dashbase 試一試,便把他推薦給了公司的老闆。

「大公司不要我,那我先去創業公司試一試也不錯。」

抱著這樣的想法,任意就去面試。實習的工作是日誌搜尋引擎相關的基礎設施研發,偏工程開發,跟他當時想做的方向很吻合,於是他便開始了第一份實習工作。

四個月後,任意又找了網易人工智慧事業部的實習機會,主要在考拉競品匹配項目中做數據挖掘工作,偏算法落地,實習了六個月。直到2018年8月,也就是大三剛結束的暑假,任意進入微軟亞洲研究院機器學習組擔任研究實習生,才開始做科研。由此可以推斷,與竺院的大部分同學相比,任意初入科研的時間並不算早。

對任意來說,竺院給予學生的自由,比科研能力的進步更重要。比如竺院的學生可以自由選擇自己喜歡的專業,可以無條件轉專業,還可以自由定製培養方案和課程。在這種「相互信任」的氛圍下,他認為可以激發學生去把自己想做的事做好,有更多選擇,更能激發學生的潛能。

在竺院讀書期間,任意非常喜歡他的班主任甘智華教授。雖然專業不同,但甘老師非常關心學生的學業與生活,經常會帶學生出去吃飯散心,在生活上給他帶來了一種家的感覺。

毫無疑問,在竺院的四年學習生活大大地拓展了任意的視野:

「在竺院的人才篩選機制下,你會發現身邊的同學都非常厲害;混合班裡,室友來自各個專業最優秀的同學,你就可以接觸到很多專業以外的學科知識,比如你想了解金融或是機械等計算機以外的知識,只要問問室友就知道了。」

與其他學院相比,竺院在課程的難度設置上更難,所學知識更全面;採用英文教材,布置作業「毫不留情面」。

比如,竺院有一門課叫《數學分析》。一般來說,工科的同學是學微積分。兩者的區別是:微積分更多是計算,大多時候只要記住和理解公式就能解出答案;而數學分析更多是證明,對邏輯和思維的嚴謹度要求更高。

除了所選專業,竺院的學生一般都要學習計算機、物理、數學、化學等不同課程的知識,培養交叉型的人才。任意提到,他在竺院《普通物理》課程上學到的知識,也用在了之後的 AI 研究上。

2

微軟亞研:「偏軌」人生

如果沒有參加微軟亞洲研究院的「乘風計劃」,任意現在也許已經是一名在網際網路大廠工作快兩年的開發工程師。可以說,微軟亞研的實習經歷改變了他的規劃:

「在做深度學習的研究之前,我是打算本科一畢業就找一份數據挖掘相關的算法工程工作。但去了亞研實習後,我開始覺得自己也有做科研的天賦,亞研也提供了很好的科研資源。」

圖註:2018年8月,任意到 MSRA 實習

微軟亞洲研究院的「乘風計劃」設立於2012年,面向合作高校本科大四的學生提供6-12個月的實習機會,尋求培養計算機領域的一流本科生。

此前,「乘風計劃」只向清北等學校的學生開放申請,但在任意讀大三那一年,微軟亞研第一次向浙大竺院提供了幾個實習名額。任意對微軟亞研崇拜已久,一直希望到微軟亞研看看,於是投遞了申請,並順利獲得實習名額。

在微軟亞研,任意遇到了他人生中的第一個伯樂:譚旭。

譚旭所在的小組是機器學習組。當時,他去微軟亞研面試,每位實習生可以填三個志願小組,其中機器學習組只開放一個實習名額。任意對自己的履歷並不自信,選了三個名額較多的小組。意外的是,譚旭無意中看到了他的簡歷,就讓他去機器學習組面試。

「我當時也挺高興的,好像被看中了一樣。」

面試的過程非常順利:譚旭出了一些機器學習相關的數學題和手寫編程題,他都能正確回答;兩個人聊了一些更宏觀的話題,也聊得很開心,就這樣通過了面試。

當時,任意對深度學習的了解並不多,因此入職前狂補深度學習的基礎知識,但過程還算輕鬆,一是經過竺院和計算機學院的本科課程學習,使他的數理基礎非常紮實,二是之前兩段實習經歷的工程化鍛鍊,使他具備了較強的代碼能力與理解能力。所以,他在入職後很快上手,雖然會碰到很多問題,但「一邊試一邊學,碰到一點(問題)就解決一點」,不算吃力。

進入微軟亞研後,任意先是跟著譚旭做了一個機器翻譯的項目,負責跑實驗,歷時兩個月,以共同一作身份在 ICLR 2019 發了第一篇頂會論文,「Multilingual Neural Machine Translation with Knowledge Distillation」。

在這篇工作中,他們提出了一種基於蒸餾的方法來提高多語言機器翻譯的準確性:首先訓練單個模型,並將模型作為「教師」;然後訓練多語言模型來擬合訓練數據,並通過知識蒸餾同時匹配單個模型的輸出。他們在 IWSLT、WMT等文本翻譯數據集上進行實驗,證明了一個多語言模型可以處理多達 44 種語言,其準確度高於單個模型的表現。

任意記得,在第一篇頂會論文的準備中,自己很「拼」:在短短的兩個月內,他一個人負責完成實驗部分。截稿前幾天,由於還有幾個非常重要的實驗沒有跑出來,他就直接睡在了公司。睡一會就起來跑實驗,實驗運行下去後就倒下去睡一會,如此循環反覆,一天只睡三四個小時,總算趕在 ddl 前跑出了理想的結果。

「那時第一次寫論文,自己寫的非常差,後來基本上被改的也完全不像我寫的,哈哈。」談到寫論文,任意自己也忍不住笑出了聲。

圖註:任意在實習結束時與部門小夥伴的合照

在微軟亞研實習期間,上級譚旭、秦濤與劉鐵岩三人對任意產生了不同的影響。

譚旭之前在京東從事算法工程相關的工作,也是進入微軟亞研後才正式開始從事人工智慧的研究工作。任意到那裡實習時,雖然譚旭加入微軟亞研不久,但任意從譚旭身上學到了一套做非常完整的科研方法論,以及嚴謹的科研態度:「在討論實驗想法時,他的思路非常清晰,每個實驗細節都摳得很嚴謹。同時,他的寫作能力非常強,寫出來的論文比很多博士寫出來的都要精鍊。」

秦濤是譚旭的上司,但對實習生也非常親近,所以大家都叫他「濤哥」。令任意感觸的是:雖然秦濤的級別很高,但對實習生的工作也十分上心。每次 ddl 之前都會幫大家改論文,一個詞一個詞地摳,有時候甚至改到凌晨 4 點。感覺是「只要覺得這個工作是我參與的,我都要把它改好,就像自己是一作一樣。」

雖然與劉鐵岩的接觸不多,「如果他來參加小組會議,就說明他很重視這個工作,說明 topic 還是不錯的」,但任意也能明顯感受到大佬深厚的科研功力:「他給我們的建議都是從很高的層次出發。如果沒有學界與業界相結合的資深經驗,很難提出這樣高屋建瓴的建議。」久而久之,任意慢慢也學習從不同的角度看問題,似乎總能獲得新的觀點。

在榜樣的力量下,任意對自己的研究目標是成為像劉鐵岩那樣的學者,只要看到一篇論文就能指出這個工作的局限性,以及給出解決問題的方法。用程式設計師的話術,就是不僅擅長找 bug,還擅長修 bug。

在大四那年,任意發表了三篇頂會論文,均是一作。他表示,本科從事科研的成本是比較低的:他的績點不低,就算沒有取得科研成果,也能保研或找到一份不錯的工作。所以,在那種比較寬鬆的、壓力源較小的情況下,他能夠更加專注於科研本身。

在微軟亞研做科研的另一個優勢是:與高校不同,學校老師可能同時帶十幾個學生,難以細細跟進每一個學生的工作,而當時的 mentor 譚旭只帶兩三個實習生。他們一天可以同步好幾次工作:上午做了實驗,得到結果後馬上同步,討論新的想法,然後下午再做實驗,再同步。「我覺得在短期內對我push的效果是非常好的,特別是我之前所做的科研比較少,這樣會激發我的很多創造力與想像力。」

與 Dashbase、網易相比,微軟亞研更像是一個實驗室,大家都在純粹地做研究,不太以盈利為目的。

在機器學習組實習期間,與其他人的交流時,他有機會與其他科研人員一起討論當前的主流方向,接觸到了計算機視覺、NLP、語音、數據挖掘等多個領域,科研視野也大大拓寬:「當你的思路枯竭時,你可以從其他領域尋找解決辦法。我有幾個工作是用這種思路去做的,效果很好。

科研能力的提升自然也增加了他做科研的自信。

做工程時,只要每天都腳踏實地付出,一般都會取得成就與成果;而做科研的話,如果沒有人引領和指導,上手會非常慢,可能努力一年也沒有收穫,得不出正反饋,對信心的打擊是比較大的。

「我覺得一個好的起步對於剛做科研的新手來說是非常重要的。80%的成功取決於起步好不好。它能給你非常大的信心。當然,起步不好的話也可以改方向或尋找其他機會,但會影響你前進的速度。」

也是在微軟亞研的實習經歷使他發現,其實國內的發展機會也很多,科研環境不一定比國外差。於是,任意「偏離」了他曾經規劃好的「本科畢業就工作」的人生軌道,選擇了保研,在本科畢設導師趙洲副教授的指導下繼續攻讀碩士學位。

3

FastSpeech:選擇賽道少人的語音研究

2018年12月,距離微軟亞研的實習結束還有兩個月。當時任意從事的是機器翻譯研究,但他覺得這方面的研究已經非常深入,很難再取得重大突破,恰好機器學習組也在嘗試新的方向,於是任意開始琢磨下一個研究重點。

結合他的判斷,計算機視覺不是首選,雖然身邊許多人都在研究計算機視覺,但他認為,即使他加進大隊伍中,基於他人的工作取得一些小成果,也不一定會對整個計算機視覺領域有很大幫助。

任意便想:如果研發出又快又好的語音合成技術,就能幫助很多企業,給他們提供更好的服務。他認為這是一個可以取得突破的方向,但研究語音的人很少,又是一個大好機會。加上語音技術與他之前所研究的機器翻譯有很多相似點,於是任意便將研究重點轉到了語音。

2019年2月,任意與譚旭合作完成了首個語音相關的工作,並結束微軟亞研的六個月的實習。回到杭州後,任意加入了創業公司一知智能實習。因為公司規模小,任意接觸到了各個部門的技術人員,很快在飯桌上了解到語音相關的業務,整個語音行業的發展情況、技術痛點等等。

在與一知智能幾位研究語音技術的同事討論語音接下來如何發展時,任意發現,目前工業界主流的語音合成的落地方案都是幾年前的技術,只用到了非常簡單的神經網絡模型。在與微軟亞研的同事溝通後,他想到了在語音合成中引進更高效、可落地部署的神經網絡。隨後,任意又將這一想法與導師趙洲討論,趙洲老師也非常看好這一方向,並給予了許多建議。

接著,任意及一知·浙大聯合實驗室團隊與微軟亞研的前同事們合作,提出了一種基於 Transformer 的新型前饋網絡 FastSpeech。在 LJSpeech數據集上的實驗表明,FastSpeech不僅在語音質量方面與傳統端到端自回歸模型(如Tacotron 2和Transformer TTS)相媲美,還能夠並行、穩定、可控地生成高質量的梅爾譜,再藉助聲碼器並行地合成聲音,將端到端的語音合成速度提高了30多倍。論文被 NeurIPS 2019 接收。

圖註:任意在NeurIPS 2019分享工作

這是目前令任意感到最自豪的工作,歷時約四個月。目前,FastSpeech已成功落地。國內許多公司(包括微軟等知名大企)都在用 FastSpeech 做語音合成,百度也做了一些開源工作,在學術界也有較大影響,引用數已過百。

前不久,任意及團隊又將技術升級,提出了 FastSpeech 2 與 FastSpeech 2s,在提升語音合成質量的同時,大大簡化了訓練流程,減少了訓練時間,加快了合成速度。(更多詳情參考 AI 科技評論之前發的 《FastSpeech語音合成系統技術升級,微軟聯合浙大提出FastSpeech 2》 )

目前,任意已經在語音相關的研究上發表了 6 篇頂會論文。論文數量足夠多之後,任意佛了:「如果一個工作對整個業界和語音社區的進步沒有貢獻的話,其實發不發表都無所謂。接著他又補充了一句:「如果這個工作好,就算我不投頂會,把它掛在arXiv上,受到的關注度也還是很高的。

現在,他也不會再追著 ddl 跑:「不投這個頂會,投下一個頂會也是可以的,關鍵是把工作做好。」

導師趙洲的研究方向主要是自然語言處理與多媒體關鍵技術研發,任意是趙洲老師實驗室第一個從事語音研究的學生。因此,他們在語音探索上是共同學習與進步。

圖註:任意與導師趙洲(右)討論問題

任意提到,導師對科研非常重視,將學生的科研放在第一位,基本就是「我們做科研怎麼舒適怎麼來」;此外,趙洲老師為學生提供豐富的計算資源與生活補貼,比如學生出國參會時的差旅費,都是由導師的經費支持。所以,任意可以心無旁騖地做科研,這也確實激發了他做科研的鬥志。

在學術指導上,任意談到,在每個頂會投稿截止前一周,趙洲老師都會召開一次批評大會,讓每個人用 5 頁 PPT 介紹自己的論文,然後由其他人幫助指出論文的問題與改正方法。任意覺得這個方法很有幫助,所以他們實驗室的頂會中稿量很多。

如今,除了語音合成,任意還從事音樂合成的相關研究,包括歌聲合成與伴奏生成。與本科期間自己親手跑實驗不同的是,任意現在帶領幾個正在讀本科大三、大四的學弟做語音相關的研究,他負責提供 idea 、指導實驗和寫作,其他人來跑具體的實驗部分。

圖註:任意與多篇論文合作學弟劉靜林討論問題

由於任意取得卓越的研究成果,他入選了2020年度位元組獎學計劃,並獲得了2020年度百度獎學金。

4

未來:往業界走

以當前的研究成果,任意成功申請全球頂尖高校博士生的機率非常大,但他很確定自己更喜歡業界。因此,碩士畢業後,他還是不打算出國,也不打算讀博,而是準備進入國內大廠繼續從事語音研究和轉化。

我感覺讀博不會給我帶來更多的提升,相比讀博,我更想到工業界發揮自己的價值。

至於以後會不會在職場晉升中因為學歷不如博士而錯過機會,任意表示自己並不擔心。他認為網際網路企業最看重的還是個人的能力,包括學習能力和解決問題的能力:

至少在計算機專業上,攻讀更高的學位意味著你可以用更多的時間來提高你的能力,證明你的潛力。但如果你的能力已經被學歷以外的成就證明,那可能就不需要用學歷說話。

從往屆獲取百度獎學金的名單來看,任意是少數獲得該榮譽的碩士生之一。他的經歷在某種程度上指明了一個事實:雖然當下對學歷的崇拜近乎狂熱,導致出現許多「學歷與崗位不相稱」的現象(比如高校行政人員亦需碩博以上學歷),但最終使個人突圍而出的,仍是 TA 的自身能力所創造的價值。

人工智慧的研究方向有許多,語言研究無疑其中一條賽道參與人員較少、發展前景樂觀的研究道路。另闢蹊徑,從新的視角看待問題,也許能避免參與到惡性的同類競爭中。

當然,最重要的還是:對自己有足夠清晰的認知,並勇敢、堅定地邁出前進的步伐。哪怕是走一條人跡罕至的道路,付出努力,創造價值,也能迎來他人所鮮少感受到的曙光。

AI科技評論本次聯合【博文視點】為大家帶來12本 《深度學習500問:AI工程師面試寶典》正版新書。

(掃碼了解本書詳情)

在2月18日文章《 《深度學習500問》正式出版!GitHub星標數超4.2萬的火爆之作 | 贈書 〉留言區留言,歡迎大家暢所欲言,談一談你 對本書的看法和期待或者 在學習深度學習時遇到的困難。

AI 科技評論將會在留言區選出 12名讀者,每人送出 《深度學習500問:AI工程師面試寶典》一本。

3. 本活動時間為2021年2月18日 - 2020年2月25日(23:00),活動推送時間內僅允許贈書福利中獎一次。

文章來源: https://twgreatdaily.com/zh-hk/mM2iu3cBDlXMa8eqEFM7.html