11月的一個週五晚上,東京大學著名的人機交互教授Jun Rekimoto正準備在線上進行一次報告。忽然,他在社交網路上發現一個消息,google翻譯忽然之間有了巨大的提升。他親自訪問了google翻譯的頁面開始體驗。他被震驚了。躺到床上後,google翻譯的威力還縈繞在他腦海中,讓他無法停止想像。
他起身在自己的部落格上寫下了自己的發現。首先,他比較了兩位日本翻譯家所翻譯的《大亨小傳》中的幾句話與google翻譯的結果。他認為,google翻譯的結果在日語上非常流暢。他認為,google的翻譯雖然有些不自然,但是比起翻譯家的作品,對他個人而言,卻更加易懂。
隨後,他又在google翻譯上輸入日文(海明威的作品日文版),進而翻譯為英文,結果發現機器翻譯與海明威英文原著有著驚人的相似度。
四天之後,大量的記者、企業家和廣告商匯集到了google位於倫敦的工程辦公室,這裡會有一個特殊的消息公佈,大家都開始猜測是不是會發布翻譯工具包。
倫敦市長Sadiq Khan首先發言,隨後,google首席執行官Sundar Pichai上台。 Pichai在倫敦的任務有一部分是為google新的大樓舉行典禮。他曾經在多個場合中提到,google的未來,是要以“AI為先”。這句話的實際含義非常複雜,也引來了諸多推測。而實際上,這句話的含義,指的是很快這家公司的產品代表的將不再是傳統電腦編程的成果,而是“機器學習”。
google很少提到的一個部門,google大腦,創建於5年前,遵循的這樣一條簡單的原理:人工的”神經網路“能通過試錯,來熟知世界,正如嬰兒所做的那樣,這將為機器帶來一些像人一樣的靈活性。
這一概念並不新鮮,它出現在20世紀40年代早期,但是絕大部分電腦科學家認為這是很難實現的、甚至是神秘的。 2011年開始,google大腦開始用這一方法進軍人工智慧,希望能解決傳統方法嘗試了數十年都沒有突破的難題。語音辨識此前一直做得不好,但是google大腦採用新方法後,讓安卓手機上的語音辨識幾乎做到了人類水平。在圖像辨識上也是如此,一年多以前,google大腦首次把這一技術應用到了商業化的產品中。
google翻譯從2006年開始推出,已經成為google最可信最流行的產品之一。 Pichai在演講中提到,難民危機使得google再次意識到,跨地區性的翻譯多麼重要。他背後的顯示屏展示了最近在google上阿拉伯語和德語之間的翻譯請求數量在增多。
google決心圍繞AI重組公司,是整個產業界機器學習熱的第一個重要證明。在過去的4年間,至少有6家公司,google、Facebook、蘋果、亞馬遜和微軟,以及百度,都在搶奪AI人才,特別是在大學中。企業對資源和自由的承諾,已經吸引了一些學術界人士。起薪7位數也不再是什麼新鮮事。另外,學術會議參會人數幾乎翻了四倍。他們關注的不再是零碎的創新,而是要控制作為整體的代表的計算平台,普遍性的、無處不在的人工智慧。
“人工智慧”一詞被提起時,好像它的意思是不言而喻的,但它一直都是爭議的根源。想像一下,如果你回到20世紀70年代,在街上攔住一個人,拿出一個智慧手機,向他展示google地圖。你要設法說服她,你不是一個奇怪穿著的巫師,從你的口袋裡拿出的不是一個黑色護身符,而只是一個比阿波羅太空梭更強大的電腦。
google地圖幾乎肯定似可以讓他認為是“人工智慧”的一個好例子。在一個非常真實的意義上,它確實是。它可以做任何人類在地圖上能做的工作,比如讓你從你的酒店到機場,而且它可以做得更快更可靠。它也可以做人類顯然不能做的事情:它可以評估交通,計劃最好的路線,在你走錯路時重新定位自己。
Pichai在演講中重新區分了現在的AI應用和通用人工智慧的目標。通用人工智慧將不是關於具體指令的遵守,而是帶有解釋性和理解性的推動。它將成為一種通用的工具,為通用環境、通用目的而設計。 Pichai認為,google的未來所仰仗的,就是類似通用人工智慧的這種東西。
想像一下,如果你能告訴google地圖,我要去機場,但是我還要在半路去給侄子買禮物。然後讓它給你計劃路線。這就是一種更通用版本的智慧,一個無處不在的助手。就像電影《Her》中描述的那樣,她能知道所有的事情,比如,你侄子的年齡、你通常會在禮物上花費多少、怎麼找到一家營業的商店。這一般是親密的朋友會知道的事。但是,一個真正智慧的地圖還能知道更多,它知道你真正想要什麼。根據你此前的行為會給你做出判斷。
現在流行的AI助手:蘋果的Siri、Facebook的M和亞馬遜的Echo,都是機器學習的產物,有著相同的作用。企業的機器學習夢想是無窮盡的,他們的目的是對消費者有更深的洞察。
下文講述的故事,就是從一兩個人,到三四個人,再到最後100多人的google大腦,是如何在這一方向上取得巨大進展的。
第一部分:會學習的機器
1.google大腦的誕生
《紐約時報》兩萬字長文,深度剖析google大腦簡史
雖然Jeff Dean的頭銜是高級研究員(senior fellow),實際上確實google大腦的大腦。 Dean身材消瘦,瘦長的臉上眼窩深陷,透露著一股熱誠。作為醫學人類學家和公共衛生流行病學家的兒子,Dean從小周遊世界——美國的明尼蘇達州、夏威夷、波士頓、阿肯色州,此外日內瓦、烏干達、索馬里、亞特蘭大等地,他在高中和大學期間寫的軟體被世界衛生組織拿去用。他25歲左右,也就是1999年以來就一直在Google工作,從那時起,他在幾乎參與了開發所有重大項目的核心軟體系統。關於他的種種傳說Jeff Dean Facts在公司裡成了一種文化。
2011年初的一天,Dean遇到了吳恩達,那時候吳恩達還是斯坦福電腦科學教授,是google的顧問。吳恩達告訴了Dean他自己幫助在google內部建立的一個項目——Project Marvin(以著名的AI先驅馬文·閔斯基命名),用於研究“神經網路”,模仿人類大腦結構的數字網路。 Dean 1990年在明尼蘇達大學讀本科時也做過類似技術的原始版,當時那段時間神經網路還算流行。現在,在過去的五年中,從事神經網路研究的學者數量已經開始再次增長,從很少幾個到幾十個。吳恩達告訴Dean,由googleX實驗室支持的Project Marvin已經取得了一些好的結果。
Dean對這個項目很感興趣,於是拿出他20% 的時間參與進來,每個Google員工都要拿出20% 的時間從事自己核心業務以外的工作。很快,Dean建議吳恩達邀請有神經科學背景的同事Greg Corrado加入,那時候Corrado聽說過人工神經網路,但了解不多。後來,吳恩達最好的一個研究生Quoc Le也作為項目的第一個實習生加入了團隊。到那時,一些Google工程師開始用Google Brain稱呼Project Marvin。
從“人工智慧”這個詞在1956年夏天達特茅斯會議誕生時起,大多數研究人員一直認為創造AI的最佳方法是寫一個非常大的、全面的程序,包含了邏輯推理的規則和有關世界的充分的知識。這種觀點通常被稱為“符號AI”,它對認知的定義是基於符號邏輯的。
符號AI有兩個主要問題。一是非常耗費人力和時間,二是只有在規則和定義非常清楚的領域才能有用:比如數學或國際象棋。使用符號AI做機器翻譯效果極差,因為語言雖有規則,但複雜多變,並且還有很多例外。但對於數學和國際象棋來說,符號AI工作得很好,而符號AI的支持者也認為,沒有什麼比數學和國際象棋更能代表“通用智慧”。
1961年一部紀錄片的節選,強調人工智慧研究長期以來的觀點:如果可以編程電腦模擬高階認知任務(比如數學或像棋),就能沿著這種方法最終會開發出類似於意識的東西。
但符號AI系統能做的事情是有限的。 20世紀80年代,CMU的一位機器人研究員指出,讓電腦做成人能做的事情很簡單,但讓電腦做一歲兒童做的事情幾乎不可能,比如拿起一個球或辨識一隻貓。到20世紀90年代,儘管在國際象棋上取得了很大的進步,我們仍然離通用人工智慧很是遙遠。
關於AI還有一個不同的看法,這種觀點認為電腦將從底層(數據)而不是從頂層(規則)學習。這個概念可追溯到20世紀40年代初,當時研究人員發現靈活自如智慧的最佳模型就是人類大腦本身。
說到底,大腦只是由神經元組成的,神經元之間可以相互通電(或不通電)。單個神經元並不重要,重要的是神經元的整體連接。這種簡單的結構為大腦提供了很多優勢,能夠適應環境。大腦可以在訊息很差或缺失的情況下工作;可以承受重大的損害,也不會完全失去控制;可以以非常有效的方式存儲大量的知識;可以清楚區分不同的模式,同時又保留足夠的混亂以處理歧義。
你可以用電子元件模擬這種結構,1943年的實驗表明,簡單的人工神經元網路可以執行基本的邏輯運算。這些電子元件至少在理論上,可以學習我們人類做事的方式。在生活中,我們會通過各種試錯改變神經元對之間的突觸連接的強弱。人工神經網路也可以做到類似的事情,通過不斷試錯,改變人工神經元之間的數字關係。人工神經網路不需要使用固定的規則預編程,它可以改變自身以反映所吸收的數據中的模式。
這種對人工智慧的看法可以說是演化論而不是創造論。如果你想要一個靈活的機制,能夠適應環境,你最開始就不想灌輸它固定的規則。你可以從非常基本的能力,從感官知覺和運動控制開始,希望更高的技能自然地出現。人類不是通過背誦字典和語法書學習理解語言,所以為什麼要讓電腦這樣做呢?
google大腦是第一個對上述想法進行商用投資的機構。 Dean、Corrado和吳恩達(兼職)開始合作,立即就取得了進展。他們從最近的理論大綱以及自20世紀80年代和90年代的想法中吸取靈感,並利用google無與倫比的數據儲備和龐大的計算基礎設施。他們將大量“標記”數據輸入網路,電腦的輸出不斷改進,愈發接近現實。
“動物演化出眼睛是一個巨大的發展,”Dean有一天告訴我。我們像往常一樣坐在會議室裡,Dean在白板上畫了一條繁複彎曲的時間線,表現Google Brain以及這個團隊與神經網路的歷史關係。 “現在電腦也有眼睛了。我們可以以此為基礎讓電腦理解照片。機器人將得到徹底地改變。機器人將能夠在一個未知的環境中,處理許多不同的問題上。”他們在機器人身上開發的這些能力可能看起來很原始,但其意義卻是深遠的。
2.多倫多大學教授Hinton成為google的實習生
《紐約時報》兩萬字長文,深度剖析google大腦簡史
Dean表示,Google Brain成立後一年左右,開發具有一歲兒童智力的機器的實驗取得了巨大的進展。google的語音辨識團隊將其舊系統的一部分改為神經網路,並且效果得到很大提升,甚至取得了近20年中最好的成果。google物體辨識系統的能力也提高了一個數量級。這不是因為Google Brain團隊成員在短短一年間產生了一系列超棒的新想法,而是因為google終於投入了資源,電腦和越來越多的人力。
Google Brain成立的第二年,Geoffrey Hinton加入了,而吳恩達則離開(現在是百度首席科學家,領導1300人規模的AI團隊)。 Hinton當時只想離開多倫多大學在google待三個月,所以由於各種原因,google不得不被聘他為實習生。在實習生培訓過程中,輔導人員會說“輸入你的LDAP(及用戶登錄碼)”,Hinton會舉手問:“什麼是LDAP?”在場所有二十幾歲的年輕人,只知道人工智慧的皮毛,都在想“那個老傢伙是誰?為什麼他連LDAP都不懂?”
Hinton說,直到有一天,有人在午餐時對他說“Hinton教授!我選修了你的課!你在這裡做什麼?”自此以後,再也沒有人質疑Hinton作為實習生的存在。
幾個月後,Hinton和他的兩個學生在ImageNet大型圖像辨識競賽中取得了驚人的成果,讓電腦不僅辨識出猴子,而且區分蜘蛛猴和吼猴,以及各種各樣不同品種的貓。google很快就向Hinton和他的學生提出了Offer。他們也都接受了。 “我以為他們對我們的知識產權感興趣,”Hinton說:“結果他們對我們這幾個人感興趣。”
Hinton出身於一個古老的英國家族。他的曾祖父George Boole在符號邏輯方面的基礎工作為電腦專業打下基礎;Hinton的另一個曾祖父是著名的外科醫生,Hinton的父親是一個熱愛冒險家的昆蟲學家,Hinton父親的表哥在Los Alamos研究所工作。 Hinton先後在劍橋大學和愛丁堡大學學習,然後在卡內基梅隆大學讀博士,最後到了多倫多大學,現在Hinton大部分時間都在多倫多大學。 (Hinton的工作長期以來一直受到加拿大政府的慷慨支持。)我在Hinton的辦公室訪問了他。 Hinton 說話睿智詭異,比如“電腦會比美國人更早理解諷刺”。
Hinton 從上世紀60年代末在劍橋大學讀本科開始,一直致力於研究神經網路,也被認為是該領域的先驅。很長時間以來,每當Hinton 說起機器學習,人們都用不屑的眼神看著他。神經網路一度被視為學術死路,主要是由於感知器(Perceptron)這個當時得到過度吹捧的概念。感知器是康奈爾心理學家Frank Rosenblatt 在20世紀50年代末開發的一個人工神經網路。當時《紐約時報》報導,感知器項目自助者美國海軍期望它“能夠走路、說話、會看、會寫、會生產(reproduce)自己,意識到自己的存在”。結果這些感知器基本都沒實現。馬文·閔斯基(Marvin Minsky)在1954年普林斯頓的論文中以神經網路為研究主題,但他對Rosenblatt 關於神經範式所做的誇張說法已經厭倦了。(閔斯基也在爭取國防部的研究資金。)後來,閔斯基與MIT 的同事合作出版了一本書,證明有一些非常簡單的問題是感知器永遠不能解決的。
閔斯基當時對感知器的批評只涉及只有一個“層”的網路,也就是在輸入和輸出之間只有一層神經網路,後來閔斯基闡述了與當代深度學習非常相似的想法。但是,當時Hinton 就已經知道,如果使用很多層神經網路,就可以執行複雜的任務。
簡單說,神經網路就是一台機器,能夠從數據中發現模式並以此進行分類或預測。有一層神經網路,你可以找到簡單的模式;有多層神經網路,就可以找出模式中的模式。以圖像辨識為例,執行圖像辨識的神經網路主要使用“卷積神經網路”(這在1998年的一篇開創性論文中闡述的概念,該論文的主要作者、法國人Yann LeCun 跟著Hinton 在多倫多大學做了博士後,現任Facebook 人工智慧實驗室負責人)。
網路的第一層學習辨識圖像非常基本的視覺效果“邊緣”,也就是一個像素旁邊沒有什麼任何東西(反之亦然)。接下來網路的每一層都在前一層中尋找模式。邊緣的模式可以是圓形,也可以是矩形。圓形或矩形的圖案可能是面部。這種方法類似於人眼將訊息組合在一起的方式,從視網膜中的光線感受器返回訊息到大腦的視覺皮層。在每個步驟中,不直接相關的細節被丟棄。如果幾個邊緣和圓圈合在一起成為一張臉,你不會在乎在視野中這張臉的位置;你只會在乎它是一張臉。
1993年的一段視訊演示,展示Yann LeCun 卷積神經網路的早期版本,這個系統到20世紀90年代末處理美國所有支票的10%~20%。類似的技術現在用於驅動大多數最先進的圖像辨識系統。
多層也即“深度”神經網路的問題是試錯法部分非常複雜。單層的網路很容易,多層的訓練起來就複雜了。 Hinton 和其他幾個人發明了一個方法(或者說,改進了一個舊的方法)解決這個多層出錯的問題,那是在20世紀70年代末到80年代,為此電腦科學家對神經網路的興趣又短暫地復燃了一會兒。 “人們對此非常興奮,”Hinton 說:“但我們把它誇大了。”於是,電腦科學家很快回到了認為像Hinton 那樣的人是怪人和神秘主義者的狀態。
不過,這些想法在哲學家和心理學家之間仍然很受歡迎,他們稱之為“連接主義”或“並行分佈式處理”。儘管加拿大政府很慷慨,但就是沒有足夠的電腦力或足夠多的數據。 Hinton 表示,支持我們想法的人不斷說:“是的,只要有一個大的機器就會工作了,但這不是一個非常有說服力的論據。”
3.深度學習的深度解讀
當Pichai在說google將以”AI為先“時,他並不僅僅在描述公司的商業戰略,也同時把這一長久以來都沒有起到多大作用的概念扔給了公司。 Pichai在資源上的分配保證了像Jeff Dean和Hinton之類的人,有足夠的計算能力和數據,來取得可靠的進展。一個人類的大腦保守估計有1000億個排列著的神經元。每一個神經元與10萬個類似的神經元相連,也就是說,突觸的數量在100萬億到1000萬億之間。對於20世紀40年代提出的一個簡單的人工智慧神經網路來說,即使要簡單的複製這一網路都是不可想像的。我們現在離建造這樣一個網路依然還有很遠的路要走,但是,google大腦的投資,至少可以讓人工神經網路可以與大腦的某一切片功能相當。
要理解擴展性(Scale)為什麼那麼重要,你需要理解更多的細節,也就是,機器究竟對數據作做了什麼?我們對AI的普遍性的恐懼,大都來源於認為它們會像一個神秘的學者一般在圖書館挖掘學習知識,然後,從前只會裁紙的機器或許有一天能像對待一隻螞蟻或者萵苣一樣對待人類。但這並不是AI 的工作方式。它們所做的全部事情都是搜索訊息,尋找共同點,最開始是基本的模式,隨後會變複雜,最後,最大的危險在於,我們所餵給它們的訊息從一開始就是錯誤或者帶有偏見的。
“知道什麼”和“做什麼”的權衡具有真正的文化及社會影響。在聚會上,Schuster 走到我跟前訴說,向媒體解釋他們的論文的挫折。他問我:“你看了最早出來的新聞嗎?”他複製早報上的一個標題,一個字一個字地指著念:“google說AI翻譯已經與人類無差”。在論文即將完成的最後幾週,團隊沒停下過奮鬥。 Schuster 經常重複地向人解釋,論文表達的是“google翻譯比以前好多了,但還不如人類好”。他表達的很明確,他們的努力不是說要替代人類,而是輔助人類。
4.識別貓臉的論文
在谷歌大腦成立的第一年到第二年間,他們讓機器掌握一歲小孩的技能的努力幸運地達成了,所以,他們的團隊也從谷歌X實驗室“畢業”,轉變為更大的研究機構。 (谷歌X的主管曾經說過,谷歌大腦負擔了所有X實驗室的成本支出。)他們的人數在當時仍然少於10個人,對於最終會實現什麼,也只有一些模糊的感覺。但是,即便是在當時,他們的思想也走在了前面,想著接下來會發生什麼。人類的思維中,首先學習的是形狀,比如說一個球,然後也會很舒服地接受所學到的知識,停留一段時間,但是遲早的電腦會需要問關於這個球的事,這就過渡到了語言。
在這一方向上,谷歌大腦做的第一件事是“識別貓”,這也是令谷歌大腦聲名大噪的一件事。 “識別貓”的論文展示的是,帶有超過10億個“突觸”連接的神經網絡,這比當時任何公開的神經網絡模型都要大好幾百倍,但是與人類的大腦相比,依然小了好幾個數量級。這一神經網絡能識別原始的、費標籤的數據,並識別高難度的人類概念。谷歌大腦的研究者向神經網絡展示了幾百萬幀靜態的Youtube 視訊,然後,神經網絡的感覺中樞開始運轉,分離出了一個穩定的模型。和所有的小孩一樣,這一模型能毫不猶豫地識別出貓的臉。
研究員從未把關於貓的先驗知識編程輸入到機器中,機器直接與現實世界交互並且抓住了“貓”這一概念。(研究者發現,這一神經網絡就好像核磁共振成像一般,貓的臉部的陰影會激活人工神經元,讓它們產生集體的喚醒。)
當時,絕大多數機器的學習都受到標籤數據的數量限制。 “識別貓”的論文展示了,機器同樣能識別原始的非標籤數據,有時候或許是人類自身都還沒建立起知識的數據。這一研究看起來並不僅僅是讓機器識別貓臉的巨大進步,對於人工智能的整體發展都有很大意義。
“識別貓”的研究第一作者是Quoc Le。 Le 又矮又瘦,說話輕柔但語速極快,他從小在越南長大,父母都是農民,小時候家裡甚至都沒有電。但是,他在數學上的天賦顯然來自他的童年時期。 20世紀90年代,他還在上學時,就曾經嘗試開發聊天機器人。他在想,這會有多困難呢?
“但是實際上”,他告訴《紐約時報》的記者,“這非常難”。
隨後,他離開了越南到澳大利亞的堪培拉大學學習,主要研究電腦視覺一類的AI任務。當時,這一領域使用的方法,是要給機器填入大量的關於事物的定義性概念,這讓他覺得像是在作弊。 Le 當時並不知道,或者說不是清楚地知道,世界上另外一些地方至少有幾十名電腦科學家和他一樣,也同時在情不自禁地想像:機器是能夠從零開始學習的。
2006年,Le 在德國的馬克斯普朗克研究所生物控制部門任職。在那裡的一個讀書小組中,他看到了Geoffrey Hinton 的兩篇論文,他覺得自己的雙眼瞬間明亮了。
“當時有很大的爭議”,他告訴我說,“非常非常大的爭議”。他看了一眼自己畫在白板上曲線,又輕聲重複到,“我從來沒有見到過那麼大的爭議。”
他記得自己在閱讀小組中站起來,並說:”這就是未來。“ 他回憶說,在當時,這並不是一個很受歡迎的決定。他在澳大利亞的舊導師曾寫郵件問他,”你為什麼做了這個決定?“
”當時我並沒有想到好的答案,我只是好奇”,他說,“(論文)提出了一個很成功的範式,但是老實說,我只是對這一範式感到好奇。”隨後,他去了史丹佛,加入了吳恩達的團隊,開始追求Hinton的理念。 “2010年年底,我已經非常確信,會有一些事情發生了。”
隨後,他到倫敦開始第一份實習,並完成了畢業論文,這也是“識別貓”的論文的前身。
在一個簡單的層面上,Le想看看電腦是否可以被訓練,從而自己識別對於給定圖像絕對必要的信息。他給神經網絡填入了一個他從YouTube採取的靜態片段。然後他告訴神經網絡丟棄圖像中包含的一些信息,雖然他沒有指定應該或不應該丟棄的東西。機器拋棄了一些信息,最初是隨機的。然後他告訴電腦:“剛才是開玩笑!現在重新創建初始圖像,你只是根據你保留的信息進行顯示。“就像他要求機器找到一種方法來”總結“圖像,然後從摘要再回溯到最初的圖像。如果摘要是基於不相關的數據 , 如天空的顏色,而不是鬍鬚 , 機器就不能執行好的重建。
機器的反應跟遠古時期的人類很像,他們對於一隻老虎的印象,是在自己看見猙獰的老虎時跑開的過程中留下的。但是,與人類的祖先不同的是,Le的神經網絡,需要進行一次一次又一次的嘗試。每一次,從數學的層面上,都會選擇對不同的信息進行優化,然後表現會越來越好。
但是,神經網絡是黑箱。它確實產生了一個模型,但是模型本身通常很難被人類理解或者觀察到。
Le 並沒有覺得“貓臉識別”的成果讓他變得更有發言權,但是,他感受到了一種動力,這種研究也許跟他早年希望開發的聊天機器人有聯繫。在“識別貓”的論文發表以後,他意識到,如果你能讓一個神經網絡對照片進行總結,你也可以讓它對一些句子進行總結。在接下來的兩年中,這些想法一直纏繞著Le,以及他在谷歌大腦的同事——Thomas Mikolov。
有一段時間,他們與谷歌的高管分享同一個辦公室。後來有一天他們從管理員處得到一封電子郵件,要求他們不要再讓團隊成員在Larry Page和Sergey Brin的套房前面的沙發上睡覺。後來,他們終於在街道對面分到了一個辦公室。
在談到Mikolov 時,Le變得很嚴肅,但是又不斷提起他們的合作。後來才知道,原來Mikolov 後來去了Facebook。
他們在這段時間試圖設計出的神經網絡架構,不僅可以適應簡單的照片分類,這是靜態的,而且還復雜的結構,隨著時間的推移變化的,如語言或音樂。這些概念許多是在20世紀90年代首次提出的。 Le和他的同事回到了那些長期被忽視的概念中,看看他們可以收集什麼。他們知道,一旦你建立了一個具有基本語言預測能力的設施,你就可以繼續做其他各種智能的事情, 例如預測一個合適的電子郵件回覆,或預測一個智能的談話的流程。你就可以側重於那種看起來很像思維的能力,至少從表面看是這樣的。
第二部分:語言機器
5.語言學的轉折
谷歌大腦中現在有上百名的成員,但是它看起來並不像是一個有著明顯的層級結構的部分,而是更像一個俱樂部或者學術團體,或者一個小酒吧。團隊成員不少是來自谷歌整個體系中最自由、最受敬仰的員工。他們現在在一個兩層蛋殼建築中辦公,有巨大的窗戶:他們的小廚房有一個桌式足球我從來沒有見過使用; Rock Band 我從來沒有見過使用;和一個Go工具箱我看到使用了幾次。
我在6月份第一次到谷歌大腦辦公室時,還有許多空餘的辦公位,但是現在已經全滿了。
谷歌大腦的成長使得Jeff Dean對公司如何處理需求感到有些擔憂。他希望避免在谷歌被稱為“成功災難”——這種情況指的是,公司的理論研究能力超過了實際開發產品的能力。某一天,他在做了一些計算後,向高管作了匯報,只用了兩頁的PPT。
“如果未來每個人每天都對自己的安卓手機說話三分鐘,”他告訴高管,“(由此產生的數據計算需求)就是我們所需要的機器數量。”未來,他們需要把自己的全球計算配置翻2-3倍。
“這也就是說,你必須建造新的大樓,”Jeff Dean 在說這話時,帶了明顯的猶豫和斟酌。
但是,他們顯然還有另一個選擇——設計出大規模生產的,能在不同的數據中心分散使用的新芯片。加快運算速度。這些芯片被稱為TPU。這些芯片比傳統芯片在精確度上要低一些。但是運算速度更快。從12.246X64.392變為12X54 。
在數學層面上,神經網絡只是數百或數千或數万的矩陣乘法,以連續不斷的形式出現。所以,讓計算更快比更準確要重要。
通常,”Dean說,“專用硬件是個壞創意。它通常只可以加速一件事。但是由於神經網絡的通用性,你可以利用這個專用硬件來處理很多其他事情。 “
就在芯片設計接近完工時,Le 和他的兩位同事終於證明了神經網絡可能可以處理語言結構。他描繪了一個”詞嵌入”的概念,這一概念出現已經有10年了。也就是說,當你對圖像進行總結時,你可以分隔圖像,來分階段組成總結,比如邊緣、圓圈等等。當你用相同的方式對語言進行總結,你最重要的是要製造出關於距離的多維度地圖。機器不會像人類一樣去“分析”數據,使用語言規則來區分是名詞還是動詞。它們只是轉化和改變或者組合地圖中的詞。
如果你能把所有法語中的詞和所有英語重點詞放在一起,至少在理論上,你可以訓練一個神經網絡,來學習如何把一個句子放到空間中,並產生一個類似的句子。
你要做的是把這些數百萬的英語句子作為輸入,把可能的法語句子作為輸出,在多次訓練後,模型能是被出相關的詞語組合模型,這和圖像識別中的像素模型是一樣的。然後你就能給機器一個英語句子,讓他它產出一個與之匹配的法語句子。
詞和像素最大的不一樣在在於,圖中的像素是一次性能全部拿到的,但是,詞的出現是根據時間漸進的。你需要讓網絡“記住”這種連續性,或者序列性。 2014年9月,有三篇論文發表,一篇是Le寫的,另外兩篇來自加拿大和德國,這些論文至少提供了完成這些任務所需要的理論工具。這些研究讓谷歌大腦中的一些項目成為了可能,比如研究機器如何生成藝術作品和音樂的Magenta。研究也為機器翻譯等實用性應用打下了基礎。 Hinton 對《紐約時報》的記者說,他本來認為這些研究要至少5年或者更多的時間才能做成。
6.伏擊
Le 的論文顯示神經翻譯是可行的,但他只使用了一個相對較小的公共數據集。 (所謂的小只是相對於Google的體量而言。這個數據集實際上是世界上最大的公共數據集。十年來,原有的Google Translate已經收集了上百到上千倍的生成數據。)更重要的是,Le的模型對長於約七個字句子的效果不是很好。
谷歌大腦的研究科學家Mike Schuster 接手了指揮棒。他知道,如果谷歌沒有找到一種方法來擴展這些理論洞見至生產水平,那麼別人會。這個項目花了他接下來的兩年。 “你會認為,” Schuster 說,“要翻譯東西,你只需得到數據,運行實驗,你就完成了,但實際不是這樣的。”
Schuster 是個緊張、專注、不顯老的人,長著一個曬黑的、活塞形的腦袋,窄肩,長迷彩短褲垂至膝蓋之下,腳踏綠色Nike Flyknits 鞋。他的模樣看起來好像早上他剛從蓮蕊中醒來,抓起他那小而無邊的橢圓眼鏡,像松鼠吃橡子般補充了卡路里,並在來辦公室的路上完成了一個輕鬆的沙漠十項全能。在現實中,他告訴我,他騎行了18英里來上班。
Schuster 在前西德的重工業區杜伊斯堡長大,研究電氣工程,然後前往京都從事早期的神經網絡。在20世紀90年代,他用來運行實驗的神經網絡機像會議室一樣龐大; 它要花費數百萬美元,必須訓練幾個星期,卻只能做一些你現在可以一小時內在電腦桌面能做到的事。他在1997年發表了一片文章,在之後的十五年裡幾乎無人引用;而今年,這篇論文已被引用了大約150次。他不失幽默,但他經常露出嚴厲的表情,我認為這種表情體現了他的德國式克制和日本式克制的結合。
Schuster 必須處理的問題是纏結性的。首先,Le的代碼是定制化的,它與Google當時開發的新開源機器學習平台TensorFlow不兼容。 Jeff Dean在2015年秋天向Schuster指派了另外兩位工程師,Wu Yonghui和Zhifeng Chen。他們花了兩個月的時間把Le的結果複製到新系統。 Le 也在附近,但即使Le本人也不是總能理解項目的進展。
正如Schuster 所說,“有些東西的進展不是能完全意識到的。工程師自己也不知道新系統為什麼行得通。
今年二月,谷歌的研究機構——該機構是谷歌的一個較為散漫的部門,大約1000名員工,致力於前瞻性和不可分類的研究—— 在舊金山威斯汀酒店的聯合廣場上召集骨幹進行外出靜思會,酒店的豪華程度略遜於谷歌在一英里外的自家店鋪。上午進行了幾輪“閃電會談”,快速交流了研究前沿,下午則在跨部門的“互促性討論”中度過。谷歌希望靜思會可以帶來不可預測的、間接的、貝爾實驗室式的交流,以讓谷歌這個成熟的公司保持多產。
在午餐時間,Corrado 和Dean 結伴尋找谷歌翻譯的主任Macduff Hughes。 Hughes正在獨自吃飯,Corrado和Dean從兩側截住了他。正如Corrado所說,“我們伏擊了Hughes”。
“嘿,”Corrado 對屏住呼吸、面露懷疑的Hughes 說: “我們有東西告訴你。”
他們告訴Hughes,2016年似乎很適合用神經網絡對谷歌翻譯,由數十名工程師10多年積累的代碼,進行大修。舊系統採用的是所有機器翻譯系統已經用了30年的工作方式:它從每個連續句子中分出片段,在一個大型統計詞庫中查找這些詞,然後應用一組後處理規則以附加適當的詞綴,並重新排列以產生意義。這種方法被稱為“基於短語的統計機器翻譯”,因為當系統到達下一個短語時,它並不知道上一個短語是什麼。這也就是Google Translate的輸出有時看起來像一大包冰凍磁鐵的原因。 Google Brain引入的大修,將使它能一次性閱讀和渲染整個句子,讓它能捕捉語境,以及某種近似於意義的東西。
項目帶來的利益似乎很低:谷歌翻譯產生的收入很低,而且這種狀況大概會持續下去。對大多數英語用戶來說,即便服務性能實現了徹底升級,他們也只會將之視為預期之內的進步。但這個團隊要證明,實現人類質量的機器翻譯不僅具有短期必要性,而且會帶來長遠的革命性發展。在不遠的將來,它將對公司的業務戰略至關重要。谷歌估計,50%的互聯網使用英語,這可能佔世界人口的20%。如果谷歌要在中國,在中國搜索引擎流量的大部分份額屬於其競爭對手百度,或印度進行競爭,體面的機器翻譯將是基礎設施不可或缺的一部分。百度本身已經在2015年7月發表了一篇關於神經機器翻譯可能性的開創性文章。
在更遙遠的、可推測的未來,機器翻譯也許是朝向一個具有人類語言能力的通用計算設施的第一步。而這將代表通向真正人工智能的一個重大拐點。
矽谷的大多數人都知道機器學習的前景正在快速接近,所以Hughes也預計到了他會被機器學習團隊的人伏擊。但他仍然感到懷疑。他是一個溫和、固執、一頭灰髮的中年男子。他是一個老牌的流水線型工程師,那種在1970年代的波音公司能看到的工程師。他的牛仔褲口袋裡經常塞著奇形怪狀的工具,好像他正要去測量磁帶或熱電偶,和許多為他工作的年輕人不同,他有自己的櫃子。他知道在谷歌和其他地方的各種人一直在嘗試進行應用層面的神經翻譯工作,這些工作已持續多年但沒什麼進展。
Hughes 聽了Corrado和Dean的建議,最後他謹慎地說,也許他們可以把計劃延遲到三年之年之後。
Dean不這麼認為。他說, “我們可以在年底之前做到這一點,如果我們全神貫注去做的話。”人們如此喜歡和欽佩Dean的一個原因是,他長期以來總是能全神貫注地辦成事。另一個原因是,當他真誠地說出“只要我們全神貫注就能辦成“的時候,他一點也不怕尷尬。
休斯很確定,這種系統轉換不會在短時間內發生。但他也不拒絕嘗試。他回去後告訴他的團隊: “讓我們為2016年做準備吧。我不會是那個說Jeff Dean無法帶來改變的人。”
一個月後,他們終於能夠運行一個並行實驗以比較Schuster的新系統和Hughes的舊系統。 Schuster想用英語 – 法語語言對來測試它,但Hughes建議他嘗試別的語言對。 “英語 – 法語翻譯已經很好了,改進不會很明顯。“
這是一個令Schuster無法抗拒的挑戰。評估機器翻譯的基準度量被稱為BLEU分數,它將機器翻譯與大量可靠的人類翻譯的平均值進行比較。當時,英語 – 法語的最佳BLEU分數值高達20多。將分數提升一個點,將被認為是非常好的改進; 提升兩個點就會被認為是是傑出的。
在英語到法語語言對上面,神經系統相比舊系統帶來了高達7分的改進。
Hughes告訴Schuster的團隊,在過去四年裡,他們在自己的系統中從沒有出現過這麼強勁的改進。
為了確保這不是一個僥倖,他們也僱人進行人工對比。在用戶體驗得分系統中,樣本句子的分值從0到6,神經系統帶來的平均改善達0.4,這大致相當於舊系統在其整個生命週期中帶來的總增益。
3月中旬,Hughes 給他的團隊發了一封電子郵件:舊系統上的所有項目都將立即暫停。
7.讓概念成為產品
在那之前,神經翻譯團隊只有三個人,Schuster、Wu 和Chen,但隨著Hughes的支持,更廣泛的團隊開始合併。他們星期三下午2點在Schuster 的引領下來到了位於Quartz Lake 的Google Brain辦公室內的一個角落房間。會議有十幾人參加。當Hughes或Corrado在場時,他們往往是唯一的兩名英語母語人士。工程師們有的講中文,越南語,有的講波蘭語,俄語,阿拉伯語,德語或日語,雖然在現實中他們大多使用高效的混雜語數學來交流。在Google,人們並不總是清楚誰正在組織開會,但這一次的會議目的則很清楚。
即便如此,他們需要採取的步驟仍不是完全清楚。 “其中有很多不確定性, 整個過程的不確定性,”Schuster告訴我。 “軟件、數據、硬件、人“。 他伸出他長而寬鬆的手臂,輕輕在肘部彎曲, ”這就像在大海裡游泳,你只能看到這遠。“他把他的手伸出到胸前8英寸那麼遠。 “目標在某處,或許它就在那裡。”
大多數Google的會議室都配有視訊會議顯示器,當閒置時,會顯示極高分辨率的Google+照片,包括田園風光、北極光或帝國議會大廈的照片。 Schuster向其中一個屏幕打了個手勢,那個屏幕上正顯示著華盛頓紀念碑的夜間一瞬。
“外人會認為,每個人都有雙筒望遠鏡,可以看到前方。“
讓他們到達此地的理論工作已經用光,但要把它變成一個可行的產品,這被學術科學家稱為“純粹的”工程的部分,仍非常難。首先,他們需要確保他們在良好的數據上進行訓練。 Google用來進行“閱讀”訓練的數十億詞語料主要是由中等複雜性的完整句子組成,這些句子就像你可能在海明威作品裡讀到的那些。其中一些是公共領域文獻,統計機器翻譯的最初語料是加拿大議會的數百萬頁完整雙語記錄。然而,它的大部分是從10年來由熱心者眾包的人類翻譯作品中篩選而來。該團隊的語料倉庫裡有9700萬個互不相同的英語”詞“。但是一旦他們刪除了表情符號、拼寫錯誤和冗餘,剩下的工作詞彙只有大約16萬。
而後,團隊必須重新去關注用戶實際想要翻譯哪些內容,而這通常並非標準而合理的語言。谷歌發現很多人並不使用谷歌翻譯來翻譯完整、複雜的句子。他們用它來翻譯古怪的小碎片般的語言。如果你希望網絡能夠處理用戶查詢的數據流,你就必須確保能在這個方向上前進。神經網絡對用於訓練的數據非常敏感。正如Hughes向我提到的:“神經翻譯系統正在學習一切。它就像一個孩子。 “他笑道。 ”它會說,‘ 哦爸爸發瘋的時候才會這麼說話! ’ 你必須要小心。”
不管怎樣,他們需要確保整個事情快速可靠,從而不給用戶帶來困擾。在2月,神經系統翻譯10個字的句子需要10秒鐘。公司不可能向用戶推出這麼慢的東西。翻譯小組開始對一小部分用戶進行延遲實驗,假裝翻譯時間會延遲,以觀察用戶的忍耐程度。他們發現,如果翻譯時間只延長了兩倍甚至五倍,便不會被用戶注意到。如果延長了八倍,就會被注意到。團隊不需要確保所有語言都是這樣。在(如法語或中文等)高流量語言的情況下,翻譯服務幾乎不會放慢速度。團隊想知道,對於那些更模糊的語言翻譯,用戶不會因為輕微的延遲而拒絕更好的翻譯質量。他們希望能防止人們放棄使用翻譯、也防止人們轉去使用競爭對手的翻譯服務。
Schuster承認,他並不知道他們是否能夠使它變得足夠快。他記得在餐室中他曾對Chen說:“肯定有一些我們不知道的東西能使它變得足夠快,但我不知道它是什麼。“
不過,他知道他們需要用更多的電腦——更多的圖形處理器來重新配置神經網絡進行訓練。
Hughes去問Schuster的想法: “我們是不是應該要求一千台GPU?”
Schuster回答,“為什麼不是2000台?”
十天后,他們拿到了新加的2000個GPU處理器。
到4月份,原來的三人陣容已變成超過30人。其中一些人,如Le,來自Google Brain;也有許多人來自Google Translate。 5月,Hughes為每對語言配置了一種臨時主管,每個主管都將進展結果錄入一個大型共享的績效評估電子表格。任何時候,都有至少20個人正在進行他們自己的獨立的、長達一周的實驗和處理意外問題。有一次某個模型開始毫無理由地把所有的數字從句子中剔除。經過了幾個月才解決這個問題。 “人們幾乎氣得要大吼。”舒斯特說。
到春季末期,各組的工作都聚集在一起。團隊引入了一些諸如“word-piece” 模型、 “coverage penalty”、“length normalization” 之類的東西。 Schuster說,每個部分都把結果改進了幾個百分點,但合起來它們有顯著的效果。一旦模型被標準化,它將是一個單一的多語言模型,將隨時間而改進,而不是目前使用的150個不同的翻譯模型。不過, 當創造一個工具通過機器學習來實現普遍化時,實現自動化的過程總是需要超出尋常的人類天分和努力。這個項目也是如此:每層要多少神經元? 1024還是512?要多少層?一次運行多少句子?訓練多久?很多決定都依賴內心深處的直覺。
“我們做了數百次實驗,”Schuster告訴我,“直到有一天我們知道,我們可以在一個星期後停止訓練。你總是會問:我們什麼時候能停下來?我怎麼知道我完成了?你永遠不知道你做完了。機器學習的機制從來不是完美的。你需要訓練,在某些時候你必須停止。這是這個系統的一個非常令人痛苦的特質。對一些人來說這很難。這是有點像藝術,像用畫筆作畫。有些人做得更好,有些人做的比較糟。“
到5月份,Google Brain團隊了解到,他們唯一能夠使系統作為產品快速實現的方法是,在T.P.U.上運行Dean所要求的專用芯片。正如Chen所說:“我們甚至不知道代碼是否能工作。但是我們知道如果沒有TPU,肯定是乾不成的。“他記得,他們曾經一個接一個地去向Dean請求,”請為我們保留一些TPU的份額。“Dean為他們保留了份額。然而,T.P.U.無法順利工作。 Wu花了兩個月坐在硬件團隊的人的旁邊,試圖找出這是為什麼。他們不只是調試模型,他們也調試芯片。神經翻譯項目將成為對這整個基礎設施投資概念的一個驗證。
6月的一個星期三,Quartz lake辦公室的會議上,人們對百度發表在領域核心期刊上的一篇文章議論紛紛。 Schuster 讓會議室恢復了秩序。 “是的,百度出了一篇新論文。感覺就像有人看透了我們做的東西——論文有類似的結構,類似的結果。“百度公司的BLEU分數基本吻合Google 在2月和3月內部測試中取得的成績。 Le並未感到不快。他的結論是,這是一個跡象,表明谷歌是在正確的軌道上。 “這個系統與我們的系統非常相似。”他安靜地說。
Google團隊知道。如果他們早些時候發布了他們的結果,可能會打敗他們的競爭對手,但正如舒斯特所說:“啟動產品比發布論文更重要。人們會說,’哦,這個發現是我先做到的。”但到了最後,誰會關心呢? ‘”
然而,這確實要求他們必須更好地研發自己的翻譯服務。 Hughes希望,他們甚至不用告訴用戶他們已經更換了系統。他們只需等待,看看社交媒體是否會發現這些巨大的改進。
“我們不想說這是一個新的系統,”他告訴我。勞動節之後第二天下午5:36,他們向10%的用戶推出了中文到英語的神經翻譯服務,沒有將切換告訴任何人。 “我們想確保它能行得通。最理想的情況是,它在Twitter上引起了爆炸:’你看過谷歌翻譯有多棒嗎?’”
8.慶祝
在缺乏季節感的矽谷,只有兩個感知季節的方法,一是小廚房里水果的變化——仲夏時期是杏李,早秋換成梨和柿子——二是技術進步的曲折。 9月下旬一個天氣溫暖得讓人不自在的周一下午,團隊的論文終於發布了。論文有31位作者。第二天,谷歌大腦和翻譯團隊的成員們聚在一起,在翻譯部門的小廚房開了一個小小的慶祝會。
夏威夷風格的小廚房的一面牆是一幅有紋理的海灘照片,以及一個小小的裝飾著花環的茅草屋似的服務台,中間有一隻毛絨鸚鵡,天花板上掛著紙燈籠一樣的裝飾。那天早上,他們慶祝翻譯團隊成立十週年,有許多已經在新部門的前團隊成員過去了。某種程度上,他們也是慶祝十年的合作努力,在那一天終於得以中途休息。兩個團隊的工程師和電腦科學家們似乎都很高興。
“這就像在泥海裡游泳,目之所及只有這麼遠。”Schuster 伸手在胸前比劃了大約8英寸。
谷歌的神經翻譯終於成功了。在慶祝會之前,團隊已經測試了1800萬條漢英翻譯。翻譯團隊的一位工程師拿著手機到處跑,試圖用百度翻譯測試漢英整句翻譯。任何人聽他講話他都很高興。他說:“如果同時輸入兩個以上的字符,它就會超時!”(百度說從來沒有用戶報告過這個問題。)
消息傳得很快,接下來的幾週,谷歌已經將神經翻譯引入到谷歌翻譯的中譯英。有些人猜測這是谷歌取得好結果的唯一的語言對。但當時慶祝會上的每個人都已經知道,他們所取得的成就將在11月公之於眾。不過到那時,團隊的許多人可能已經進入其他項目。
Hughes 清了清嗓子,走進這間夏威夷風情的小酒吧。他穿著一件褪色的綠色polo衫,領子有點皺,腹部位置染上了暗色的汗漬。他說,最後有一個問題,然後是最最後還有一個問題,說了論文中存在的一個嚴重的測試誤差,以及系統中有一個奇怪的與符號有關的bug。但一切都解決了,或者至少是暫時已經解決了。慶祝會上人們都安靜了。 Hughes 開會非常高效,他對嘮嘮叨叨或者一面之詞的容忍度很低,但場面的嚴肅讓他停下來。他承認他可能是在比喻,但他認為強調事實很重要,他說,神經翻譯項目本身就是“使用不同語言的團隊成員之間的合作”。
他繼續說道,神經翻譯項目是一個“向前的階躍”,即一種並不連續的進步,是垂直的飛躍,而不是平滑曲線式的進步。與翻譯相關的不只是兩個團隊之間的合作,而且是從理論到現實的實現。他舉起香檳:
“為了溝通,”他說,“以及合作!”
工程師們聚在一起,互相看看,發出略顯慎重的歡呼聲和掌聲。
Jeff Dean 與Corrado 和 Schuster 一起站在小廚房的中央,他的手插在口袋裡,肩膀微微內聳。 Dean 注意到他的在場令氣氛有些凝重,他以非常有他的特點的低調方式,輕快、簡潔地補充了一句。
他說,他們同時做成了兩件事:“做研究,以及,我估計,在5億人之前做成了。”
大家都笑了,不是因為這句話誇張了,而是因為它一點也不誇張。
結語:會說話的機器
也許歷史上最有名的對人工智能的批判,或者說是以它的名義的斷言,即暗示了翻譯的問題。 1980年伯克利哲學家 John Searle 提出“中文房間”(Chinese Room)實驗,藉以反駁強人工智能的觀點。在 Searle 的思想實驗中,一個對漢語一竅不通,只說英語的人被關在一間只有一個開口的封閉房間中。房間裡有一本用英文寫成的手冊,指示該如何處理收到的漢語訊息及如何用漢語相應地回覆。房外的人不斷向房間內遞進用中文寫成的問題。房內的人便按照手冊的說明,查找到合適的指示,將相應的中文字符組合成對問題的解答,並將答案遞出房間。房內的人很快就熟悉手冊指示的內容,他的答案也很快變得“與中文母語者的難以區分”。難道房內的人“理解”了中文嗎? Searle 認為顯然不是。
在上述過程中,房外人的角色相當於工程師,房中人相當於電腦,而手冊則相當於電腦程序:每當房外人(工程師)給出一個輸入,房內的人(電腦)便依照手冊(程序)給出一個答复(輸出)。而正如房中人不可能通過手冊理解中文一樣,電腦也不可能通過程序來獲得理解力。 Searle 後來寫道,這個電腦的隱喻,引出了這樣一種觀點:“有正確的輸入和輸出,並且被正確編程的數字電腦,將因此具有心智,正如人類具有心智一般。”
但即使像谷歌這樣龐大的創新機構也將面臨這種自動化浪潮的威脅,一旦機器能夠從人類的話語學習,即使是工程師這類的舒適工作都將受到威脅。
《網易科技》授權轉載