中科院博論致謝登上熱搜:計算機終成一生事業與希望!網友:他把自己活成了光

2021-04-19     大數據文摘

原標題:中科院博論致謝登上熱搜:計算機終成一生事業與希望!網友:他把自己活成了光

大數據文摘出品

作者:Caleb

根據2019年的一項數據顯示,在我國,每年被授予博士學位的人數超過了87萬人。

也就是說,每年都有87萬份博士論文被提交。

那為何一篇博士論文會突然火起來?火的還是其中的致謝部分?

別急,聽文摘菌慢慢說來。

這篇論文題為《人機互動式機器翻譯方法研究與實現》,撰寫這篇博士論文的是2017年畢業於中國科學院大學的工學博士黃國平

在博士論文的致謝部分中,他黃國平細數了發生在自己家庭中的種種不幸,年幼時母親離家,十七歲時經歷了父親和婆婆的相繼離世等等。但從小學一直到大學,再到中科院自動化所,黃國平懷揣的信念是,「把書念下去,然後走出去,不枉活一世」

據了解,黃國平在校期間學科專業為模式識別與智能系統,機器翻譯方向碩博連讀,具體研究方向為人機互動式機器翻譯。對於計算機領域,他表示,「進入大學後,計算機終於成了我一生的事業與希望」

2017年畢業後,黃國平在騰訊人工智慧實驗室「騰訊AI Lab」擔任高級研究員,「繼續博士期間確定的研究課題,持續向目標靠近」。

致謝部分全文如下:

在知乎上,「如何看到中科院自動化所的博士論文致謝」這一話題就登上熱榜,目前的瀏覽量已經超過了680萬

正如最熱評留言到,「他的世界本無光,他把自己活成了光」。

對於網友們的種種評論與激勵,黃國平也向網友留言和朋友關心表示歉意和謝意。

博士論文:提出人機互動式機器翻譯方法和實現技術

我們知道,隨著技術的發展,機器翻譯的速度和精度都得到了相當大的改善。

比如宗成慶老師此前就分享到,機器翻譯的運用要基於場景和任務,在一些場景下,機器翻譯確實能幫助人,比如旅遊問路,但是在某些領域,比如高層次的翻譯,要對機器翻譯寄予太多的希望還為時過早。

對於此,黃國平在論文中寫到,基於翻譯記憶的計算機輔助翻譯軟體在專業翻譯市場仍具有得天獨厚的優勢。這是因為在特定領域中,如果待翻譯文本與記憶庫中的文本匹配程度很高時,翻譯記憶的譯文質量明顯優於機器翻譯的自動譯文。大多數情況下,專業譯員甚至不想花費太多的時間閱讀自動譯文。

人機互動式機器翻譯方法和實現技術就顯得尤為重要。

在論文中,黃國平就提出了一種融合統計機器翻譯技術的中文輸入方法。該方法能夠充分融合統計翻譯中的翻譯規則、翻譯假設列表和翻譯結果候選列表等相關信息,只需較少的按鍵次數就可以生成準確的譯文結果。

此外,為了指導統計機器翻譯系統生成更適合該輸入方法的翻譯結果,他提出了面向輸入方法的譯文自動評價指標。實驗結果表明,該輸入方法能大幅減少翻譯人員的譯文修改強度,顯著提高翻譯效率和譯文質量。同時,自動評價指標能使該輸入方法利用更合適的統計翻譯結果,進一步提升人工翻譯效率,顯著改善人機互動體驗。

在術語翻譯方面,黃國平也提出了一種基於術語識別邊界信息的術語識別和翻譯方法

該方法藉助術語識別邊界信息建立術語解碼方法,主要利用從平行句對和網際網路單語語料中挖掘得到的術語翻譯知識,包括三個部分:從平行句對中挖掘術語翻譯知識的融合雙語術語識別的聯合詞對齊模型,從單語語料中挖掘術語翻譯知識的基於雙語括號句子的術語翻譯挖掘方法,以及基於術語識別邊界信息的統計翻譯術語解碼方法。

為了使機器翻譯系統能夠在人機互動過程中有效利用譯員已完成的雙語句對,實時獲取翻譯知識並改善自動譯文的質量,黃國平提出了一種基於隨機森林的統計翻譯在線學習方法

該方法通過在人機互動過程中實時從輸入源文和用戶反饋構成的平行句對中抽取翻譯知識,不斷更新基於隨機森林的統計翻譯模型,從而改善譯文的質量。

由於低頻詞和未登錄詞直接影響詞對齊和翻譯知識抽取的性能,因此,他還提出了一種基於錨點的隱馬爾可夫增量式詞對齊方法。該詞對齊方法有效利用互信息和詞典等先驗知識生成對齊錨點,然後聯合執行基於錨點的雙語短語劃分和隱馬爾可夫詞對齊算法。

博士導師宗成慶,國內NLP「泰斗級人物」

說到黃國平的博士導師宗成慶,那也是響噹噹的大人物。

近年來,宗成慶的主要研究領域集中在機器翻譯、人機對話系統和文本數據挖掘等自然語言處理相關技術上。

在國內機器翻譯領域,不說別的,宗成慶翻譯的Philipp Koehn的《統計機器翻譯》當屬國內中文第一本SMT的書,同時《統計自然語言處理》可以稱得上是幾乎所有自然語言處理者的入門教材,可見其地位之高。

當然就更不用提宗老師2013年當選國際計算語言學委員會(ICCL)委員、2015年擔任國際頂級學術會議 ACL-IJCNLP 程序委員會共同主席(PC Co-Chair)、2019年當選中國人工智慧學會會士、2020年擔任第28屆國際計算語言學大會(COLING)程序委員會共同主席、現為亞洲自然語言處理學會(AFNLP)主席等多重身份了。

在知乎上,有網友還分享了自己在宗老師課上的經驗。

比如網友@太黑桃就表示,宗老師為人十分謙遜、接地氣

宗老師人還很謙遜,課堂上如果被學生問住了會認真地向學生道歉,課件如果有小錯誤也會向大家道歉並且及時更新。講課也比較幽默,是那種嚴肅方式表達的幽默,很接地氣。

此外,根據用戶@lmbg附上的圖片,宗老師會告誡學生,「計算機知識傳遞人類聲音和文字的工具,在情感和心智方面它永遠替代不了人」。

可以看到,宗老師還是相當「有情懷」的。

目前仍「持續向目標靠近」

相信也有不少讀者關心,黃國平的現狀如何。

根據公開資料顯示,黃國平在騰訊人工智慧實驗室「騰訊AI Lab」擔任高級研究員。

在2020年,他也合作在ACL上發表了一篇題為Evaluating Explanation Methods for Neural Machine Translation的論文。

論文連結:

https://arxiv.org/pdf/2005.01672.pdf

論文提出,許多人致力於解釋黑盒NMT模型,但在評價解釋方法的度量上進展甚微。詞對齊錯誤率(Word Alignment Error Rate)可以作為這樣一個與人類理解相匹配的度量,然而,它無法衡量那些沒有與任何源詞對齊的目標詞的解釋方法。

論文從另一個角度對解釋方法的評價進行了初步嘗試。研究人員提出了一個基於保真度的原則性度量方法,關於NMT模型的預測行為。由於這個度量的精確計算是難以解決的,研究人員採用了一種有效的方法作為其近似值。

這種方法不依賴於人工標註,可以用來評估所有目標詞的解釋方法。在6個標準翻譯任務上,該指標對兩種流行的翻譯模型的4種不同解釋方法進行了定量評價和比較。

不忘初心方得始終,也正如黃國平在致謝部分所寫一樣,「理想不偉大,只願年過半百,歸來仍是少年,希望還有機會重新認識這個世界,不辜負這一生吃過的苦。最後如果還能做出點讓別人生活更美好的事,那這輩子就賺了」。

文章來源: https://twgreatdaily.com/zh-tw/ehbT6XgBMMueE88vcB8H.html