股市投資

基金ETF

全球總經

理財商業

消費信用

保險稅制

房產生活
人類已經阻止不了蘋果翻譯了
收藏文章
很開心您喜歡 虎嗅網 的文章, 追蹤此作者獲得第一手的好文吧!
虎嗅網
字體放大


分享至 Line

分享至 Facebook

分享至 Twitter


人類已經阻止不了蘋果翻譯了

2020 年 9 月 26 日

 
展開

編按:本文為中國媒體針對 ios 14 系統之研究,部分用語為在地用語,若有需要可自行google判讀。

萬眾矚目的 iOS14 帶來了全新的內置翻譯功能。

打開它,第一眼看去平平無奇。

翻譯應用本體非常簡潔。在頂端選好互譯的語言後,用戶可以通過文字或語音輸入需要翻譯的內容,翻譯後的文字會以藍色字體顯示在下方。

蘋果翻譯目前支持包括中文、英語、日語、德語、西語在內的 11 種常用語。

不過,當我們仔細“把玩”了一下蘋果的這個翻譯軟體後,發現事情並不簡單。一開始,我們發現除了日常用語外,連一些不太常見的說法,它也能輕鬆解決:

比如,輸入“快樂肥宅水”後,蘋果翻譯給出的結果是“可樂”。

這勾起了我們的興趣,翻出一些上古老梗試了試,居然也忠實地“還原”了——

“藍瘦香菇”這一題蘋果給出的答案是“Sad.gif”(“藍瘦香菇”是 2016 年火遍網路的梗,源自一失戀的南寧小哥拍攝的自拍影片,他用方言表達“難受,想哭”,被“直譯”為了“藍瘦香菇”)。

這實在太神奇了。要知道,Google翻譯這一題的答案還是:

我們又接著試了試更多網路流行語,發現蘋果翻譯很有自己的想法。

輸入“奧利給”後,蘋果翻譯表示這個詞是“酷”的意思。

太厲害了!而且,在面對跨文化交流的微妙場合時,蘋果翻譯也沒有輸掉。

日文的“月色真美”經了它的手,就變成了“我愛你”。日本網友紛紛表示對蘋果好感大增。

▲ 夏目漱石白教了

然而,隨著先用上 iOS14 的一批人,像我們一樣不斷“試探”蘋果翻譯,大家很快發現,這個應用開始有點不對勁了。

比如輸入“五五開”,出現的英文是“盧本偉”……(盧本偉是一名前鬥魚主播,在一次遊戲比賽中被問到和比自己實力強大很多的對手比賽甚麼感受,他強行回答了“五五開”,自此在遊戲圈變成這個詞的代名詞,但在遊戲圈外,可能並不是所有人都知道這個梗)

▲ 它不是準確不准確的問題,它真的是那種……那種很少見的那種

而輸入“滾筒洗衣機”,日語直接顯示“工藤新一”,不由讓人替真的需要在日本購買洗衣機的人捏了一把汗(因為“工藤新一”的日語發音,聽起來很像滾筒洗衣機。所以許多中國動漫迷會這麼稱呼他。但放在一個“正經”的翻譯軟體裡,是不是太隨意了)。

▲ 雖然從某種程度來講並沒有翻譯錯

至此,蘋果翻譯給人的感覺,已經從“能精準翻譯出晦澀中文梗的精髓”變成了“這是不是有點太隨意,要耽誤真正想要翻譯的人的正事”的疑惑了。

而且,在另一些時候,蘋果翻譯表現得更是好像沉迷於玩爛梗的小鬼。

明明只是普通的一句“一袋米要扛幾樓”,都硬要翻譯成“感受痛苦吧”(因為後者的日文讀音,聽起來就像是中文的一袋米要扛幾樓,諸君可以打開蘋果翻譯一試)。

▲ 也可以輸入“辛辣天塞”試試

類似的翻車時刻越來越多,大家就開始覺得蘋果的“隨心所欲二次元”濃度也未免太高了。

“把玩”至此,我們實在是好奇,是誰“教壞了”蘋果呢?其實是語料被“污染”了。

雖然蘋果一向對自家的技術三緘其口,這次也一樣沒有說明 iOS14 到底用到了什麼模型,但我們可以參考蘋果翻譯的老前輩 Google 翻譯。

Google 翻譯用到的是 Seq2Seq (Sequence to Sequence)模型, Seq2Seq 由兩個循環神經網路模型協力組成,一個用於對輸入序列進行編碼,一個用於對輸出序列進行解碼。

當輸入中文“知識就是力量”時,編碼模型把每個字都標上一個矢量,其中每個矢量代表到目前為止已讀取的所有字的含義。在整個句子編碼結束後,解碼器即會開始生成對應的英語句子。

通過分析大量的語料數據,模型能自動從中學習出相應的語法規則。也就是說,工程師教給模型什麼,模型就學會什麼。因此,蘋果的工程師可能為蘋果翻譯 feed 了太多網路平行語料,導致蘋果翻譯被網路用語“污染”,而識別不出文本原來的含義。

蘋果翻譯出現失誤的另一個可能性是,蘋果翻譯引入了知識圖譜。

知識圖譜是 Google 於 2012 年提出的概念,本質上是一種基於圖的數據結構。在知識圖譜中,每個名詞(又叫實體)都是一個節點,每個節點間又有邏輯關係線相連。通過這種知識圖譜,神經網路能更好地理解上下文之間的關聯。

▲ 一種知識圖譜示意圖

也許在蘋果翻譯構建的知識圖譜中,“五五開”被鏈接到“盧本偉”這個實體,而這個實體又可以被翻譯為“Lu Benwei”。同理,“滾筒洗衣機”也可能被鏈接到了“工藤新一”這個實體。

因為網路平行語料和知識圖譜的存在,翻譯模型在面對獨立的名詞時很容易翻車。比如說“瓜皮”,蘋果直接按方言理解,翻譯成“笨蛋”。

▲ “方言本當上手”

不過,根據我們對它原理的判斷,想要更準確的翻譯,解決方法之一就是在蘋果翻譯出現錯誤時,我們可以嘗試為文本添加上下文,來幫助模型更好地理解。

比如把“瓜皮”改成“我不吃瓜皮”,把“滾筒洗衣機”改成“滾筒洗衣機多少錢”。

蘋果的這些翻譯確實帶來了很多樂趣,但當人們真的需要用它來完成跨語言溝通時,又不由得捏一把汗。

現在問題來了,這樣的蘋果翻譯你喜歡嗎?

虎嗅》授權轉載

【延伸閱讀】

 
週餘
 
 
分享文章
分享至 Line
分享至 Facebook
分享至 Twitter
收藏 已收藏
很開心您喜歡 虎嗅網 的文章, 追蹤此作者獲得第一手的好文吧!
虎嗅網
分享至 Line
分享至 Facebook
分享至 Twitter
地圖推薦
 
推薦您和本文相關的多維知識內容
什麼是地圖推薦?
推薦您和本文相關的多維知識內容