谷歌 AI 專家告訴你人工智慧炒作的背後意義

人工智慧前線會議 (AI Frontiers conference) 於 11 月3 日 – 5 日在美國加州聖塔克拉拉召開。谷歌（Alphabet, GOOGL-US）產品經理、本次大會共同發起人之一的艾普瓦・柯提查 (Apoorv Saxena) 日前接受華頓知識線上專訪，介紹為什麼各界對於人工智慧的關注與日俱增，人工智慧的近期發展趨勢，以及長期挑戰有哪些。

以下是採訪對話編輯版本。

華頓知識線上：近一段時間，各界對於人工智慧的關注與日俱增。究竟是什麼令各界瘋狂炒作人工智慧概念？對於人工智慧，有沒有哪些比較主流的認知性錯誤？炒作與現實之間又該如何區分？

柯提查 (Apoorv Saxena) ：關於近期各界對人工智慧的高度關注，背後有這樣幾個因素。首先，人工智慧領域長期未能得到解決的部分問題最近取得重大突破。其中主要涉及圖像和語音理解的問題。比如，現在的電腦已經可以比人類更好地轉錄人類語音。人類試圖攻克語音理解難關的努力已經持續了二三十年之久。直到最近這方面才取得了重要進展。圖像理解也是這個情況，還有人類語言理解的一些具體分支，比如翻譯領域。

是深度學習技術幫助我們取得了重大突破。這項技術由來已久，需要借助高度分散式的、可量化的計算基礎設施才能實現運行。同時，還需借助海量資料對演算法進行驗算，並使用簡便的工具來建立人工智慧模型。這些都是人工智慧領域引發高度關注的主要原因。

人們會很自然地把最近某些領域取得的突破投射到未來。有些人甚至對一些深度學習技術尚未落實的領域也做出了大膽預測。這樣做既吸引了眼球，但同時也造成了大量誤解。其實，人工智慧尚無法很好地學習新概念、更無法將學習成果延伸到新的上下文當中。

舉個例子。人工智慧系統仍舊依賴于大量資料來進行訓練。我們人類並不需要事先觀看4萬張貓的圖片才能知道那是貓。人類小孩只需要看過兩隻貓，就能分辨出哪只是貓，哪只是狗，還能說出兩者的區別。因此，目前的人工智慧系統遠無法複製人類思想的學習能力。在可預見的未來，這將是一大挑戰。

華頓知識線上：炒作與現實之間如何區分？

柯提查：很多樂觀的論調來自對當前趨勢的推斷，但是都忽略了這樣一個現實：一些東西從研究報告變成工程產品很難。作為一名利用最新人工智慧技術設計產品的產品經理，我必須努力地將炒作與現實嚴格區分。最明智的做法，就是兼具工程師的適度懷疑精神與研究者的樂觀精神。你需要知道最新研發的很酷的人工智慧原型背後有哪些根本的技術性原則，並能推斷出哪部分技術有著堅實的理論基礎。

比如，如果你知道是哪些驅動因素推動了語音辨識領域取得突破，那你就很容易判斷出未來語音辨識的品質將會大大改善。同時，出於對自然語言理解技術現狀的適度懷疑精神，你將能夠發現真正的機遇所在，比如呼叫中心哪些工位在不遠的未來可能被自動化所取代。

華頓知識線上：近期人工智慧會有哪些可能的發展動向？哪些是短期內比較難以實現的？

柯提查：正如我剛才所說，在一些狹義領域，比如語音辨識領域，人工智慧的複雜程度已經超過了最優秀的人類。但是在比較寬泛的領域，那些要求推理、上下文理解和目標尋找的領域，人工智慧還趕不上5歲的孩子。我認為人工智慧系統尚無法在無人監管的情況下很好地進行學習。如果資料量十分有限，人工智慧是無法學習的。如果人類不給予干預，人工智慧也無法進行訓練。這是今後最主要的難題。目前的研究均未能在這方面取得顯著進展。

“深度學習之父”Geoff Hinton (谷歌工程師) 有一句話說得好。我可能無法轉述原話，但基本上是這樣說的：“深度學習實際上讓人工智慧變了味，因為它讓很多人以為人工智慧無所不能。而我們知道，人工智慧僅能解決很有限的幾類問題。”我認為人工智慧的挑戰依舊巨大。目前尚無進展能證明這些問題會在短時間內得到解決。

華頓知識線上：人工智慧是一個龐大的領域，覆蓋很多方面。其中一些問題對非專家來說不太好理解。比如，您和華頓商學院營運、資訊及決策教授Kartik Hosanagar曾在去年4月合作過一篇華頓知識線上文章，關於機器學習的民主化問題。機器學習領域有哪些讓您尤為印象深刻、或者令您感到驚訝的進展嗎？

柯提查：令我印象深刻的是，借助一些十分便利的工具，人工智慧在很多方面都可以幫助人類。我們都聽說過日本的農民利用人工智慧對黃瓜進行分類，把好黃瓜和壞黃瓜分開。非洲一些物流公司利用人工智慧運送包裹。對於人們如此迫切地渴望利用人工智慧、並且充滿創造力，我深感驚訝。雖然人工智慧的運用領域有限，但人們依然物盡其用。這一點著實讓我印象深刻。

華頓知識線上：除了機器學習，你還多次提到了深度學習。我們的讀者大多不是人工智慧專家，能不能解釋一下深度學習和機器學習有什麼區別？深度學習有哪些重大突破？

柯提查：機器學習比深度學習的概念要寬泛得多。機器學習從根本上來講就是一種電腦利用資料進行學習的模式，電腦利用習得模式來對新資料進行預測。而深度學習則是一種具體的機器學習技巧。

深度學習按照人類大腦學習和使用神經網路的模式進行建構。神經網路是神經元組成的分層網路，能夠從資料中學習模型並作出預測。就像人類會利用不同水準的概念化來理解一個複雜問題那樣，每一層的神經元都會以層級方式對一個具體特徵或概念進行抽象化，從而理解複雜的模型。

深度學習之美就在於，它與其他機器學習技巧不同：當你輸入更多訓練資料時，其它學習技巧的預測表現會停滯，但深度學習的表現會隨著更多資料的輸入而不斷增強。

同時，深度學習已經被運用於解決類型迥異的問題，並且表現良好。其它技巧是無法做到這一點的。這些因素讓深度學習變得與眾不同，特別是對於那些你可以輸入大量資料和計算能力的問題。

華頓知識線上：能不能介紹一下深度學習有哪些令你印象最為深刻的重大突破？

柯提查：深度學習是個頻頻帶給人以驚喜的領域。最近這二三十年，大量嘗試和新技術層出不窮。我現在能想到的有兩個。一個是強化學習，我會展開講一下。另一件目前正在發生的大事簡稱GAN，就是“生成對抗網路” (Generative Adversarial Networks) 。

這兩項都堪稱重大突破，因為它們解決了人工智慧的一個關鍵問題，我也特別提到過：如何在沒有太多人類監督的情況下進行學習。簡單地來解釋的話，強化學習本質上屬於基於代理 (軟體程式) 的學習，透過賦予它一個優化目標，然後這個代理經由多種路徑來進行優化，然後從錯誤或失誤中選擇一種最佳路徑。機器學習的進步也是基於同樣的技術：如何玩電子遊戲，比如Atari的遊戲，甚至是Go等更加高級的策略遊戲。

另外一個引發熱切關注的重要領域主要涉及“生成對抗網路”，簡稱GAN。簡單地說，想像一個人和夥伴一起學習。這樣我們就得到了兩個相互競爭、相互訓練、相互促進的神經模型，從而加速學習進程。GAN 在解決“無監督學習”這一類問題時效果尤為顯著。就是在你手頭沒有多少培訓資料來告訴機器該學習什麼的情況下。GAN 目前的應用領域包括圖像生成、影片漸變等，未來還將有更廣泛的應用。

華頓知識線上：人工智慧還有一個方面吸睛，那就是自然語言處理，往往涉及智慧助手，比如蘋果（Apple, AAPL-US）手機的 Siri、亞馬遜（Amazon, AMZN-US）的 Alexa，以及微軟（Microsoft, MSFT-US）的 Cortana。聊天機器人技術是如何演變的？未來將會如何？

柯提查：正如你所說，該領域所有巨頭都在這方面投入鉅資。其引發了大量關注主要基於兩個原因。這是人類與機器互動的最自然的途徑，和機器對話，然後機器也能理解。這也從根本上改變了電腦與人類的互動方式。幾乎所有人都相信，這將是接下來的一件重要事件。

當然，這項技術的早期版本並不盡如人意。原因在於對自然語言的理解或處理是極其困難的。比如，你不能像圖像理解或語音理解那樣，單單運用某一種技術或者深度學習模式就解決掉所有問題。自然語言理解與它們有著本質上的差別。

理解自然語言或者對話，離不開大量的人類知識和背景知識。因為和語言相關的上下文資訊太多，除非你把所有人類知識都教給代理，否則它無從理解，即便是最基本的語言。

挑戰就在於此。你所提到的各大公司都在該領域投入了鉅資。就我所見，一些具體領域的確取得了一些進展，比如你可以點披薩，以及解決“我的銀行帳戶餘額不足，是否允許此次交易進行？”這類問題。這些問題估計用不了多久都能解決。

但如果是更加開放性的討論，比如把你的人工智慧助手想像成你的神經科醫生，要解決這類問題肯定為時尚早。畢竟它們需要對人類知識、人類情感有極為深入的理解。在可預見的未來，人工智慧尚無法具備這種能力。

華頓知識線上：你覺得聊天機器人未來會變成什麼樣？

柯提查：如果聊天機器人在具體的、垂直的領域或上下文中工作，正如我所說，它們會做得很好。如果上下文是固定的，不會變化，更重要的是使用者對聊天機器人的預期比較有限，我認為在這些領域聊天機器人的表現真的會很好。

目前另外一個用到聊天機器人的領域叫做“目標導向談話”。比如，建立兩個人之間的會議或預約，完全可以交由聊天機器人來完成。這裡的上下文十分有限，僅限於協調兩人的日程，或者預定餐廳。可以不需要專人致電餐廳預約，聊天機器人自動完成，因為任務和上下文都是嚴格規定的。我認為超過這個範圍的任何任務目前仍是比較困難的。

華頓知識線上：什麼是電腦視覺？是否可以讓機器像人類那樣理解影片？該領域有哪些前景最好的商業運用？最大的挑戰是什麼？

柯提查：電腦視覺是指理解圖像與影片的一門科學。舉個例子，理解圖像就是知道一個圖像中包含什麼物體。影片也是同樣的。在一部影片中，你會思考自己看到了哪些不同的場景，以及這個場景中有哪些人和物。

接下來透過將影片中不同的圖像、場景或者其中的關聯來描述每個場景，這也是可以做到的，至少目前越來越有希望做到。人工智慧能夠做到在觀看一部影片後總結它在影片中看到了什麼。所有這些都屬於電腦視覺或者視覺理解範疇之內。

電腦視覺的應用領域很廣。其中一個前景比較樂觀的就是監控領域。我們能夠透過監控影片發現異常現象。另一個主要的應用領域是自動駕駛汽車。人工智慧說明汽車理解路面有什麼東西，發現物體，作出決策，讓汽車可以根據發現的結果做出決定。這是另一個比較主要的領域。

我認為，影片理解領域已有了比較顯著的進展。今天，影片之所以被稱為“暗資料”是有原因的。因為我們對影片的理解能力極為有限。但是想像一下，當機器開始理解影片裡的內容時是怎樣一番景象。你會看到，不遠的將來，我們會在這方面取得令人難以置信的進展，機器能夠說明人類自主生成影片。並非完全自動化，但風險之一是機器可能有能力製作虛假影片。

最近你或許看過一部虛假的歐巴馬講話影片，在社群媒體上很火。改變影片內容以及對口型技術十分容易，幾乎可以以假亂真。這也引起了極大的爭議。因此，影片修改和改變影片內容的能力既是一個巨大的機遇，也是一項艱巨的挑戰。但無論如何，這就是趨勢。

華頓知識線上：聽起來很神奇。現在有一些大公司積極參與人工智慧的研發，特別是谷歌、微軟、亞馬遜和蘋果。在中國則有百度（Baidu, BIDU-US）、阿里巴巴（Alibaba, BABA-US）和騰訊。對於新創企業和規模較小的公司來說，如何把握人工智慧的機遇？如何實現增值？您認為他們能否很好地融入人工智慧生態系統？

柯提查：我認為無論是大公司還是小公司都有利可圖。這個領域有很多巨頭，他們搭建了現成的平台。其他人其實可以著重開發人工智慧應用。人工智慧領域幾乎所有參與者都建立了平台，包括谷歌在內。其他人可以借助這些平台開發應用。這就和利用安卓或移動平台一個道理。只要平台建好，大家就可以開發應用。因此，顯然這才是我們該集中注意力的地方。毫無疑問，新創企業十分有望利用好大公司開發的開源工具，建立自己的應用。

第二個新創企業有望大施拳腳的地方，就是所謂的“垂直領域”。人工智慧的進步在很大程度上取決於優秀的演算法與專有資料的結合。雖然谷歌等巨頭掌握一部分最頂尖的工程人才和演算法，但卻無法擁有所有資料。因此，比如某個公司掌握醫療健康方面的專有資料，他們就能建立一家醫療人工智慧新創企業，與那些巨頭一爭高下。金融、零售等行業也是同理。

華頓知識線上：能不能舉例說明一下，有哪些新創企業在人工智慧領域做出了尤為突出的成績？為什麼他們的工作十分重要？

柯提查：目前以人工智慧為中心的新創企業尚未取得太多突破性成功。當然我所謂的突破性成功是指做到成百上千萬、甚至幾十億產值的新創企業。還是有很多前景光明的新創企業的。比如在客戶服務領域，我見到一些新創企業做得很好。我知道人力資源自動化領域也有做得不錯的新創企業。

華頓知識線上：未來 12 到 24 個月內，每個人最該關注的三大人工智慧領域是什麼？原因是什麼？

柯提查：我認為，機器人和人工智慧的交叉將是十分有趣的事情。一直以來，機器人領域的研究令人失望，主要是指大規模應用的問題。我預言，人工智慧和機器人在這方面的結合將是誘人的。我們可能會看到一些值得關注的應用產生。更加擬人化的機器人也是一個比較重要的領域，這離不開自然語言理解和視覺理解的進步，當然還有機器人。我肯定會密切關注這方面的進展。

自動駕駛汽車也是一個很重要的領域。未來幾年之內，我們就將見證自動駕駛汽車的商業化部署。

我對影片理解領域的未來發展也抱有樂觀態度。影片理解與視覺現實的結合有望帶來一些有趣的突破。這同樣是值得我們持續關注的一個方面。關鍵是不要僅僅關注人工智慧，而是要關注人工智慧和其他領域的結合。在不遠的將來，或許會取得令我們驚歎的成果。

《K@W》授權轉載

【延伸閱讀】

週餘

篇

谷歌 AI 專家告訴你 人工智慧炒作的背後意義

谷歌 AI 專家告訴你人工智慧炒作的背後意義