2014年到2016年,機器翻譯領(lǐng)域可以說(shuō)是翻天覆地。
這期間發(fā)生的大事,是以神經(jīng)網(wǎng)絡(luò )作為基礎的機器翻譯,開(kāi)始在全面超越此前以統計模型為基礎的統計機器翻譯(SMT),并快速成為在線(xiàn)翻譯系統的主流標配。
在這場(chǎng)革命之后,機器翻譯徹底進(jìn)入了Neural Machine Translation,即NWT神經(jīng)機器翻譯時(shí)代。
很多人為此歡欣鼓舞?;叵肴ツ?,谷歌在中英翻譯系統上部署了GNWT——谷歌神經(jīng)機器翻譯之后,當時(shí)網(wǎng)上有一句廣為流傳的話(huà):“作為翻譯,看到這個(gè)新聞的時(shí)候,我理解了18世紀紡織工人看到蒸汽機時(shí)的憂(yōu)慮與恐懼。”
怎么樣?是不是感受到了深深的絕望?
但是先讓咱們的小情緒平靜一下。時(shí)過(guò)一年,市面上的NWT系統越來(lái)越多,國內的BAT、搜狗,國外的谷歌、Facebook、微軟等都在布局。雖然翻譯質(zhì)量確有提高,但遠沒(méi)到上述引文中描繪的發(fā)生“質(zhì)變”的程度。這到底是為什么?
于是,我們選取了目前最有代表性的谷歌GNWT和屢獲大獎的搜狗的SogouNWT,來(lái)摸索一下今天神經(jīng)網(wǎng)絡(luò )機器翻譯的真實(shí)水平和進(jìn)化空間。
應用效果測試
考慮到要求連貫性、語(yǔ)句準確的在線(xiàn)翻譯技術(shù),其應用場(chǎng)景無(wú)非兩種:一是海外旅游、購物為代表的實(shí)時(shí)溝通場(chǎng)景;二是垂直領(lǐng)域的專(zhuān)業(yè)內容翻譯(畢竟日常翻譯需求查單詞就夠了),所以這里選取了一些旅游用語(yǔ)和專(zhuān)業(yè)論文,來(lái)檢測一下SogouNMT和GNMT的翻譯實(shí)力。
此外,今年6月搜狗在發(fā)布翻譯APP時(shí)表示SogouNMT的獨門(mén)秘籍之一是翻譯古詩(shī)詞,所以我們也找來(lái)了古詩(shī)詞與文言文來(lái)折磨兩個(gè)“小家伙”。
首先是來(lái)看一句基本的旅游用語(yǔ):
英譯漢:What is the possibility of my getting a seat if I wait?
谷歌答案:如果我等待,我可以得到座位的可能性?
搜狗答案:如果我等待的話(huà),我有座位的可能性是多少?
漢譯英:如果我等下去的話(huà)有多大幾率有座位?
谷歌答案:What is the chance of having a seat if I wait?
搜狗答案:How often do I have a seat if I wait?
從中可以看出,英譯漢的語(yǔ)序調整大體正確,搜狗對漢語(yǔ)的語(yǔ)法理解更準確。但漢譯英卻沒(méi)有那么樂(lè )觀(guān),對于表述比較口語(yǔ)化的“幾率”,兩個(gè)系統都沒(méi)有表現出對上下文的理解能力。
我們來(lái)找點(diǎn)論文里的長(cháng)句子虐一下。
英譯漢:
ItseemsanachronistictotalkaboutintertextualityinthebeginningoftheTwentyFirstCentury,almostfortyyearssincethetermfirstappearedwithJuliaKristeva’sintroductionofMikhailBakhtintotheWesternworld.
谷歌答案:
在二十一世紀初談?wù)摶ノ男运坪醪缓蠒r(shí)宜,自從Julia Kristeva將Mikhail Bakhtin引入西方世界以來(lái),已經(jīng)有四十年了。
搜狗答案:
在二十世紀初開(kāi)始談?wù)摶ノ男运坪跏遣缓蠒r(shí)宜的,近四十年來(lái),從Juliakristeva引進(jìn)米哈伊爾·巴赫金到西方世界第一次出現。
漢譯英:
自四十年前朱麗婭·克里斯蒂娃在介紹巴赫金思想時(shí)首次將"互文性"概念引進(jìn)西方世界以來(lái),到21世紀初的今天再針對“互文性”進(jìn)行討論已經(jīng)顯得有些不合時(shí)宜。
谷歌答案:
Since the introduction of the "intertextuality" concept for the first time in the introduction of Bakhtin's thought forty years ago, the discussion of "intertextuality" at the beginning of the 21st century has become somewhat outdated.
搜狗答案:
Since Julia Christie introduced the concept of " intertextuality" to the western world for the first time 40 years ago, it has become an anachronism to discuss the " intertextuality" in the early 21st century.
從長(cháng)句子的翻譯上看,中英之間的語(yǔ)序調整還是大問(wèn)題。而且語(yǔ)序引發(fā)的意義差別會(huì )影響整個(gè)翻譯的結果。另外漢譯英中,谷歌表現稍微好一點(diǎn),搜狗出現了很?chē)乐氐穆┳g。值得肯定的是,二者對專(zhuān)有名詞的翻譯都比較準確,但是人名庫顯然還不夠大。
我們再來(lái)一點(diǎn)有意思的,杜甫的《石壕吏》:
暮投石壕村,有吏夜捉人。老翁逾墻走,老婦出門(mén)看。吏呼一何怒!婦啼一何苦!
谷歌翻譯版:
Twilight cast stone trench village, there are officials to catch the night.
The old man went over the wall and the old woman went out to see.
Official call an anger! Women cry one bitter!
搜狗翻譯版:
Twilight lapidation the village, there are officials and night catchers.
The old man went over the wall and the old woman went out to see.
The guards cried so fiercely The old lady cried so sad.
參考巴頓·華茲生公認比較權威的譯文:
At evening I put up at Stone Moat Village; that night an official came to round up people. The old man at the inn scaled the wall and ran away; the old woman came to open the gate. The official, how fiercely he shouted! The old woman, how pitiful her cries!
可以看出谷歌對古詩(shī)詞的理解確實(shí)不如搜狗,比如婦啼一何苦搜狗翻譯長(cháng)了“old women”應該是對應上了前文。再比如“夜捉人”變成了“catch the night”似乎不如搜狗的貼邊。當然了,兩邊對于“逾墻走”這類(lèi)表達都無(wú)法準確理解,另外搜狗完全漏了石壕村。
另外還有一種情況,翻譯過(guò)程中根據詞的表面意義直翻的現象比較嚴重,并且應該是在算法的加持下強行組成句子。而這種翻譯模式下,漏翻現象會(huì )很?chē)乐亍?/p>
從以上測試可以得出以下兩個(gè)問(wèn)題:
-
首先,中英文之間的語(yǔ)序對調,也就是機器翻譯中的對齊問(wèn)題還是沒(méi)有得到妥善解決。
-
其次,在于神經(jīng)網(wǎng)絡(luò )翻譯應該會(huì )根據算法自己生成整句內容。這是因為算法把句子當做單獨的序列,所以無(wú)論短語(yǔ)和單詞是否正確,都必須生成句子。并且,語(yǔ)位關(guān)系與動(dòng)詞的翻譯經(jīng)常出錯。
當然以上只是根據我們的實(shí)驗得到的特征,不一定全面和準確,但似乎確實(shí)說(shuō)明了神經(jīng)機器翻譯沒(méi)有那么神,甚至有一些技術(shù)迭代后出現的新問(wèn)題。
找鑰匙,搶鑰匙
目前來(lái)看,神經(jīng)網(wǎng)絡(luò )機器翻譯未來(lái)很長(cháng)時(shí)間都會(huì )處在主要位置。并且可能會(huì )短時(shí)間內不斷突破。而針對上面分析到的問(wèn)題,有一些解決方案可以作為比較高效的補充,也許這些會(huì )成為神經(jīng)網(wǎng)絡(luò )翻譯企業(yè)接下來(lái)的重點(diǎn)戰場(chǎng)。
這里探討的是以其他技術(shù)力量完善神經(jīng)網(wǎng)絡(luò )機器翻譯的方式,說(shuō)不定其中某項會(huì )成為促進(jìn)真人翻譯進(jìn)一步失業(yè)的“鑰匙”:
一、引進(jìn)NMT以外的人工智能技術(shù):巧合的是,近兩年關(guān)于機器翻譯的技術(shù)突破往往來(lái)自其他人工智能領(lǐng)域。比如注意力模型,是來(lái)自Deepmind在機器視覺(jué)領(lǐng)域的技術(shù)構想。主動(dòng)引入其他領(lǐng)域的算法和模型,或許在翻譯領(lǐng)域有神奇的效果。
二、建立機器學(xué)習使用的用戶(hù)數據庫,激發(fā)互動(dòng):在機器學(xué)習的原理當中,對錯誤樣本糾錯往往是最好的學(xué)習途徑,但翻譯上的糾錯行為顯然是企業(yè)難以完成的。調動(dòng)用戶(hù)主動(dòng)糾錯翻譯結果,并以之建立數據庫,或許是非常便捷的辦法。
三、嘗試優(yōu)質(zhì)訓練資料下的弱監督學(xué)習:目前的NMT體系,歸根結底是個(gè)有監督學(xué)習過(guò)程,很多所謂“莫名其妙”的翻譯結果都來(lái)自翻譯機制無(wú)法優(yōu)化。嘗試一些深度學(xué)習架構讓翻譯系統自我優(yōu)化,也許是個(gè)解決方案。
四、垂直領(lǐng)域語(yǔ)料數據庫&數據抽調系統:解決具體的專(zhuān)業(yè)領(lǐng)域,甚至文言文的中英互譯(當然也包括英文的詩(shī)歌和文學(xué)文本),其實(shí)也沒(méi)什么特別的辦法,擁有強大的垂直領(lǐng)域數據庫是硬實(shí)力,當然好的數據抽調模型會(huì )事半功倍。
神經(jīng)網(wǎng)絡(luò )機器學(xué)習,還是個(gè)標準的新生事物。業(yè)界愿意選擇它只是因為它比此前的方案更優(yōu)化,也更有發(fā)展潛力。絕不是因為它一出手就秒殺眾生,達到了取代人類(lèi)同行的地步。
翻譯依舊是一個(gè)非常安全的工作,至少今天還是。
評論
全部評論(89)
-
最新最熱
行業(yè)資訊 -
訂閱欄目
效率閱讀 -
音頻新聞
通勤最?lèi)?ài)