久久一区二区精品,亚洲综合久久久久久中文字幕,国产综合精品一区二区,日韩欧美久久一区二区,综合欧美国产视频二区,亚洲国产欧美日韩精品一区二区三区,亚洲一区二区综合

BAT、谷歌、Facebook都在搞的神經(jīng)機器翻譯,真的就
腦極體 2017-09-07 08:55:23

BAT、谷歌、Facebook都在搞的神經(jīng)機器翻譯,真的就地表最強了嗎?

2014年到2016年,機器翻譯領域可以說是翻天覆地。

這期間發(fā)生的大事,是以神經(jīng)網(wǎng)絡作為基礎的機器翻譯,開始在全面超越此前以統(tǒng)計模型為基礎的統(tǒng)計機器翻譯(SMT),并快速成為在線翻譯系統(tǒng)的主流標配。

在這場革命之后,機器翻譯徹底進入了Neural Machine Translation,即NWT神經(jīng)機器翻譯時代。

很多人為此歡欣鼓舞?;叵肴ツ?,谷歌在中英翻譯系統(tǒng)上部署了GNWT——谷歌神經(jīng)機器翻譯之后,當時網(wǎng)上有一句廣為流傳的話:“作為翻譯,看到這個新聞的時候,我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼。”

怎么樣?是不是感受到了深深的絕望?

但是先讓咱們的小情緒平靜一下。時過一年,市面上的NWT系統(tǒng)越來越多,國內(nèi)的BAT、搜狗,國外的谷歌、Facebook、微軟等都在布局。雖然翻譯質(zhì)量確有提高,但遠沒到上述引文中描繪的發(fā)生“質(zhì)變”的程度。這到底是為什么?

于是,我們選取了目前最有代表性的谷歌GNWT和屢獲大獎的搜狗的SogouNWT,來摸索一下今天神經(jīng)網(wǎng)絡機器翻譯的真實水平和進化空間。

應用效果測試

考慮到要求連貫性、語句準確的在線翻譯技術,其應用場景無非兩種:一是海外旅游、購物為代表的實時溝通場景;二是垂直領域的專業(yè)內(nèi)容翻譯(畢竟日常翻譯需求查單詞就夠了),所以這里選取了一些旅游用語和專業(yè)論文,來檢測一下SogouNMT和GNMT的翻譯實力。

此外,今年6月搜狗在發(fā)布翻譯APP時表示SogouNMT的獨門秘籍之一是翻譯古詩詞,所以我們也找來了古詩詞與文言文來折磨兩個“小家伙”。

首先是來看一句基本的旅游用語:

英譯漢:What is the possibility of my getting a seat if I wait?

谷歌答案:如果我等待,我可以得到座位的可能性?

搜狗答案:如果我等待的話,我有座位的可能性是多少?

漢譯英:如果我等下去的話有多大幾率有座位?

谷歌答案:What is the chance of having a seat if I wait?

搜狗答案:How often do I have a seat if I wait?

從中可以看出,英譯漢的語序調(diào)整大體正確,搜狗對漢語的語法理解更準確。但漢譯英卻沒有那么樂觀,對于表述比較口語化的“幾率”,兩個系統(tǒng)都沒有表現(xiàn)出對上下文的理解能力。

我們來找點論文里的長句子虐一下。

英譯漢:

ItseemsanachronistictotalkaboutintertextualityinthebeginningoftheTwentyFirstCentury,almostfortyyearssincethetermfirstappearedwithJuliaKristeva’sintroductionofMikhailBakhtintotheWesternworld.

谷歌答案:

在二十一世紀初談論互文性似乎不合時宜,自從Julia Kristeva將Mikhail Bakhtin引入西方世界以來,已經(jīng)有四十年了。

搜狗答案:

在二十世紀初開始談論互文性似乎是不合時宜的,近四十年來,從Juliakristeva引進米哈伊爾·巴赫金到西方世界第一次出現(xiàn)。

漢譯英:

自四十年前朱麗婭·克里斯蒂娃在介紹巴赫金思想時首次將"互文性"概念引進西方世界以來,到21世紀初的今天再針對“互文性”進行討論已經(jīng)顯得有些不合時宜。

谷歌答案:

Since the introduction of the "intertextuality" concept for the first time in the introduction of Bakhtin's thought forty years ago, the discussion of "intertextuality" at the beginning of the 21st century has become somewhat outdated.

搜狗答案:

Since Julia Christie introduced the concept of " intertextuality" to the western world for the first time 40 years ago, it has become an anachronism to discuss the " intertextuality" in the early 21st century.

從長句子的翻譯上看,中英之間的語序調(diào)整還是大問題。而且語序引發(fā)的意義差別會影響整個翻譯的結(jié)果。另外漢譯英中,谷歌表現(xiàn)稍微好一點,搜狗出現(xiàn)了很嚴重的漏譯。值得肯定的是,二者對專有名詞的翻譯都比較準確,但是人名庫顯然還不夠大。

我們再來一點有意思的,杜甫的《石壕吏》:

暮投石壕村,有吏夜捉人。老翁逾墻走,老婦出門看。吏呼一何怒!婦啼一何苦!

谷歌翻譯版:

Twilight cast stone trench village, there are officials to catch the night.

The old man went over the wall and the old woman went out to see.

Official call an anger! Women cry one bitter!

搜狗翻譯版:

Twilight lapidation the village, there are officials and night catchers.

The old man went over the wall and the old woman went out to see.

The guards cried so fiercely The old lady cried so sad.

參考巴頓·華茲生公認比較權威的譯文:

At evening I put up at Stone Moat Village; that night an official came to round up people. The old man at the inn scaled the wall and ran away; the old woman came to open the gate. The official, how fiercely he shouted! The old woman, how pitiful her cries!

可以看出谷歌對古詩詞的理解確實不如搜狗,比如婦啼一何苦搜狗翻譯長了“old women”應該是對應上了前文。再比如“夜捉人”變成了“catch the night”似乎不如搜狗的貼邊。當然了,兩邊對于“逾墻走”這類表達都無法準確理解,另外搜狗完全漏了石壕村。

另外還有一種情況,翻譯過程中根據(jù)詞的表面意義直翻的現(xiàn)象比較嚴重,并且應該是在算法的加持下強行組成句子。而這種翻譯模式下,漏翻現(xiàn)象會很嚴重。

從以上測試可以得出以下兩個問題:

  • 首先,中英文之間的語序?qū)φ{(diào),也就是機器翻譯中的對齊問題還是沒有得到妥善解決。

  • 其次,在于神經(jīng)網(wǎng)絡翻譯應該會根據(jù)算法自己生成整句內(nèi)容。這是因為算法把句子當做單獨的序列,所以無論短語和單詞是否正確,都必須生成句子。并且,語位關系與動詞的翻譯經(jīng)常出錯。

當然以上只是根據(jù)我們的實驗得到的特征,不一定全面和準確,但似乎確實說明了神經(jīng)機器翻譯沒有那么神,甚至有一些技術迭代后出現(xiàn)的新問題。

找鑰匙,搶鑰匙

目前來看,神經(jīng)網(wǎng)絡機器翻譯未來很長時間都會處在主要位置。并且可能會短時間內(nèi)不斷突破。而針對上面分析到的問題,有一些解決方案可以作為比較高效的補充,也許這些會成為神經(jīng)網(wǎng)絡翻譯企業(yè)接下來的重點戰(zhàn)場。

這里探討的是以其他技術力量完善神經(jīng)網(wǎng)絡機器翻譯的方式,說不定其中某項會成為促進真人翻譯進一步失業(yè)的“鑰匙”:

一、引進NMT以外的人工智能技術:巧合的是,近兩年關于機器翻譯的技術突破往往來自其他人工智能領域。比如注意力模型,是來自Deepmind在機器視覺領域的技術構想。主動引入其他領域的算法和模型,或許在翻譯領域有神奇的效果。

二、建立機器學習使用的用戶數(shù)據(jù)庫,激發(fā)互動:在機器學習的原理當中,對錯誤樣本糾錯往往是最好的學習途徑,但翻譯上的糾錯行為顯然是企業(yè)難以完成的。調(diào)動用戶主動糾錯翻譯結(jié)果,并以之建立數(shù)據(jù)庫,或許是非常便捷的辦法。

三、嘗試優(yōu)質(zhì)訓練資料下的弱監(jiān)督學習:目前的NMT體系,歸根結(jié)底是個有監(jiān)督學習過程,很多所謂“莫名其妙”的翻譯結(jié)果都來自翻譯機制無法優(yōu)化。嘗試一些深度學習架構讓翻譯系統(tǒng)自我優(yōu)化,也許是個解決方案。

四、垂直領域語料數(shù)據(jù)庫&數(shù)據(jù)抽調(diào)系統(tǒng):解決具體的專業(yè)領域,甚至文言文的中英互譯(當然也包括英文的詩歌和文學文本),其實也沒什么特別的辦法,擁有強大的垂直領域數(shù)據(jù)庫是硬實力,當然好的數(shù)據(jù)抽調(diào)模型會事半功倍。

神經(jīng)網(wǎng)絡機器學習,還是個標準的新生事物。業(yè)界愿意選擇它只是因為它比此前的方案更優(yōu)化,也更有發(fā)展?jié)摿Α=^不是因為它一出手就秒殺眾生,達到了取代人類同行的地步。

翻譯依舊是一個非常安全的工作,至少今天還是。

4
歡迎關注商界網(wǎng)公眾號(微信號:shangjiexinmeiti)
標簽神經(jīng)  谷歌  

評論

登錄后參與評論

全部評論(89)

廣告
廣告
廣告
商界APP
  • 最新最熱
    行業(yè)資訊

  • 訂閱欄目
    效率閱讀

  • 音頻新聞
    通勤最愛

廣告