觀點||蔡基剛:AI時代,高校翻譯專業會消亡嗎

2019-09-09     翻譯教學與研究

本文來源:《中國科學報》 (2019-09-04 第4版 觀點)。感謝蔡教授授權!

圖片來源:視覺中國

隨著機器翻譯時代的到來,高校翻譯專業必然走向消亡,除了保留少數翻譯研究所或文學翻譯研究所外,翻譯專業應該改為語言服務專業。

蔡基剛

在2019世界人工智慧大會上,馬雲在「機器與人誰更聰明」的對話中稱,「人類不可能創造一個比自己更聰明的機器」,而另一方馬斯克則認為,「人工智慧可能比最聰明的人還要聰明」。

這兩種觀點恰恰代表了我國高校對機器翻譯的兩種不同觀點。其中,機器不可能替代人工翻譯的觀點占主流,尤其在翻譯界。比如,北京外國語大學高級翻譯學院教授李長栓在不久前發表的《機器可以取代人工翻譯嗎?》一文中明確表示,「要想通過機器翻譯,實現自然語言的處理,恐怕還有很長的路要走;也許永遠沒有實現的一天」。

但是能不能替代不是嘴上論戰,而是要拿出論據或證據。反對者的最大論據是機器人無法識別或無法斷定某個詞或某個句子的確切含義。如李長栓文章例舉mission一詞,認為它有「使命」和「使團」兩個意思;defendants一詞在刑事文本中是「被告人」的意思。但在民事語境下是「被告或原告」的意思。李長栓認為,「這些微小差別,更是不能指望機器分辨出來」。

李長栓的擔心實際上是詞和句子在特定語境下的意義不能確定,但機器翻譯恰恰在這方面有更好的判斷力。

機器翻譯發展到今天已到了第三代即神經機器翻譯(NMT:Neural Machine Translation),其根本原理就是根據語境化原則建立海量的分門歸類的語料庫來處理。機器翻譯從來不是去語境的,用一款機器人翻譯任何文本是一種公眾的誤解。

機器翻譯必須是專門性的,比如法律機器翻譯、醫學機器翻譯、生物機器翻譯、石油機器翻譯、航天機器翻譯、海事機器翻譯等等,而且每個機器翻譯下面還有子機器翻譯。以法律機器翻譯為例,下面可能還有法律合同、法庭判決書、法律訴訟書分類;在法律訴訟書下,再細分民事訴訟書、刑事訴訟書或軍事訴訟書等。機器翻譯分得越專,準確率越高,某個詞如defendants是「被告人」還是「被告或原告」,在特定機器里是非常容易翻譯的。

機器翻譯有一個巨大的語料庫,即專門機器把這類文本(如民事訴訟書)儘可能多地收集起來建庫。語料庫有雙語翻譯對等語料庫(即輸入以往所有已完成的互譯文本,如英漢翻譯對等文本)和雙語平行對等語料庫(即沒有經過翻譯,但是同一主題、同一體裁的兩種不同語言文本)。一個專門機器翻譯往往需要上百萬乃至千萬的翻譯對等和雙語平行對等的句子,這就需要語料庫訓練對齊。

機器翻譯有一套可操作的、給原語語料加工對齊的語言標準,標準可分詞彙和句子結構兩大部分。

詞彙部分是這個學科或行業統一的詞彙或詞表,其中包括術語、專門詞彙和普通詞彙。比如,目前機器翻譯對於生僻詞(rare words)和外來詞(loan words)處理是一大難題。由於在漢語科技文章中大量是音譯或意譯的術語和技術名詞,不統一造成誤譯較多,比如雷達(radar)、克隆 (clone)、基因(gene)、拷貝(copy)、鐳射(laser)等。即使海峽兩岸暨港澳地區意譯也不統一,比如software(軟體/軟體)、missile(飛彈/飛彈)、information(信息/資訊)、waveguide(波導/導波)等。

因此,標準是規定對於外來詞統一使用原詞,如不是用「轉基因食品」,而是改回genetically modified foods 或GMOs。還有一些漢語比喻詞或四字成語,規定避免使用,如「耳聞目睹」 可以改成 「聽到的和看到的」,「胸有成竹」要求改為無比喻的文字。

句法部分是規定使用統一的語法和句法結構,如「這次事故幸虧實驗人員做了充分的應急準備」這類主題句,改為機器可以識別和翻譯的SVO主謂句「幸虧實驗人員做了充分的應急準備,才避免了這次事故的發生」;漢語流水句(即缺乏顯性連詞的一組小句)要加工處理,如「這種設備操作簡單,價格低廉,需求量這幾年一直很大,使用者遍及國內外」,改為「由於這種設備操作簡單,價格低廉,因此需求量這幾年一直很大,使用者遍及國內外」。

有了統一標準,我們就可以對原語語料進行加工,讓機器學習和訓練:人工按標準對原語料處理和規範,然後輸入機器翻譯,之後對機器翻譯譯文進行與原文的比較和校對,修改後輸回機器,再讓其進行學習翻譯,數次來回反覆後,語料庫文本不斷完善。也就是說,隨著機器翻譯實踐的不斷增加,這款專業翻譯機器的準確率達到95%乃至100%也並非不可能。翻譯內容越專業、場景或任務越固定、標準越統一,翻譯準確率就越高。

一款專門機器翻譯就這樣開發出來了。當然,在使用中首先要求專業共同體作者用開發標準(即統一的詞彙和規定的句法)來撰寫法律合同、車輛操作說明書或化學實驗報告等。對暫時不按標準寫作的,在機器處理前首先安排人工按標準對原語加工處理(這種處理還是比人工翻譯快得多)。

不過,這裡所說的是漢語翻譯英語,因為這是難點和關鍵。英語翻譯漢語,即使只有80%的準確率,科技、工程、外貿人員也能根據自己的專業知識彌補。

機器翻譯與機器人阿爾法狗(Alpha Go)的原理基本一樣,阿爾法狗機器人不僅被輸入3000萬圍棋高手們的棋譜,而且能夠在與真人高手對局中自我學習和訓練,不斷提高自身棋力,因此能接連打敗世界圍棋第一人就毫不奇怪了。幾年前,不少人認為機器人阿爾法狗永遠不可能戰勝人類棋手,但是短短兩三年後,這個說法不就變成笑話了嗎?

這個道理翻譯界人士也懂,但是他們為什麼對機器翻譯這麼悲觀?主要是機器人威脅到翻譯專業的生存。當大量細分領域的專門機器開發出來了,當機器翻譯的質量(更不用說數量和速度)平均高於翻譯專業的本科生和研究生,社會企業還需要這些畢業生嗎?技術的發展對社會習慣、高校專業結構的衝擊最大。在人工智慧時代,沒有一個高校專業可以獨善其身。

在筆者看來,隨著機器翻譯時代的到來,高校翻譯專業必然走向消亡,除了保留少數翻譯研究所或文學翻譯研究所外,翻譯專業應該改為語言服務專業。這不是名稱的改變而是功能的變化。語言服務系的學生除掌握一些基本翻譯技能外,主要學習機器翻譯算法,學習特定領域的最基本專業知識,尤其是專業表達,包括特定專業的知識和內容是如何用英語和漢語構建與傳播詞彙使用特點、句法結構的。為機器翻譯服務,這是一個很大的新興產業。

筆者相信,技術文本和政治文獻的機器翻譯替代人工翻譯在未來幾年就可能實現。人機耦合到單獨翻譯是時間問題,機器翻譯譯文總體質量超過職業譯者也是必然的。文學翻譯同樣如此,如網絡文學的機器翻譯已成產業。當然,名著翻譯要嚴謹些。

高校翻譯界必須為這個時代的到來做好準備,尤其是翻譯專業要為自己的消亡、開創新興的語言服務專業做好準備,進行勇敢的探索。

(作者系復旦大學教授)

文章來源: https://twgreatdaily.com/zh-tw/upUSGG0BJleJMoPMNPaC.html