上週二,Google(GOOGL-US)和 Facebook(FB-US)宣布,使開源機器學習框架 PyTorch 與 Tensor-Processing Units(TPU)進行合作。這種夥伴關係標誌著人工智慧研究合作進入新時代。
“今天,我們很高興地宣布,Google TPU 團隊的工程師正積極與 PyTorch 核心開發人員合作,將 PyTorch 與 Cloud TPU 連接起來。長期目標是讓每個人都能享受 PyTorch 的簡便性和靈活性,同時能夠從 Cloud TPU 的性能、可擴展性和成本效益上獲益。”Google 產品總監 Rajen Sheth 說道。
PyTorch 是 Facebook 的開源框架,可以開發人工智慧研究中使用的數學程式。這樣的框架允許研究人員開發任意複雜的數學計算圖並自動計算衍生產物。
TPU 是由 Google 專門為 AI 系統設計的電腦晶片。據 Google 描述,TPU 比傳統的圖形處理單元(GPU)快 15 到 30 倍。
PyTorch 有什麼新功能?
近日,Facebook 發布的深度學習框架 PyTorch 1.0 主要有三大更新:
一是添加了一個新的混合前端,支持從 Eager 模式到圖形模式的跟踪和腳本模型,以彌合研究和生產部署之間的差距。
二是一個經過改進的 Torch 分佈式庫,可以在 Python 和 C++ 環境中實現更快的訓練。
三是添加了針對關鍵性能研究的 Eager 模式 C++ 接口,將在測試版中發布。
目前,研究人員和工程師必須面對許多框架和工具,以創建新的深度學習模型並將其轉移到生產環境中大規模運運作,而這裡多數框架和工具通常是不兼容的。如此,將會降低開發者在規模化生產中部署 AI 能力的速度。通過這個最新版本,將現有 PyTorch 框架的靈活性與 Caffe2 的生產能力結合,提供從研究到生產性 AI 的無縫路徑。
Google 的 TPU 有什麼優勢?
雖然 TPU 是一種專用集成電路,但它運作的程式來自 TensorFlow 框架下的神經網路,驅動了 Google 數據中心的許多重要應用,包括圖像識別、翻譯、搜尋和遊戲。通過專門為神經網路重新分配晶片計算資源,TPU 在真實數據中心負載環境下效率要比通用類型的電腦高 30~80 倍,目前已為全球 10 億人提供日常服務。另外,神經網路的推理階段通常會有嚴格的響應時間要求,這降低了通用電腦所使用技術的有效性;通用電腦通常運作得較快,但某些情況下也會較慢。
為什麼 Pytorch 與 TPU 建立連接很重要
將 GPU 上的大量數據與神經網路訓練結合是當前深度學習系統成功的催化劑。可能需要花費數月訓練的神經網路,在使用 GPU 訓練時,時間縮短到短短的幾個小時。隨著深度學習的成熟,神經網路和數據集變得越來越大,這些網路現在需要數月才能在 GPU 上進行訓練。Google 專有的 TPU 為這些龐大的系統提供了一種更快速的訓練方法。更快的訓練意味著研究人員可以更快地進行實驗,從而提高 AI 研究的速度。
為什麼這種夥伴關係有利於人工智慧研究
傳統上,Google 和 Facebook 通過 Google Deepmind,Google Brain 和 Facebook AI Research 進行了獨立的 AI 研究。因此,人工智慧工具生態系統已經在 Tensorflow(Google 的 AI 框架)與 Pytorch 的辯論中分立,雖然競爭使得兩個框架都以極快的速度發展,但其也使得研究在可重複性方面困難重重。
如果此公告標誌著一種更加協作的 AI 研究方法,我們可能會看到這兩個框架之間的互操作性得到改善。此外,這樣的結果使得 AI 在智慧型手機上的部署更容易,也便於多種框架建構統一的工具生態系統,並改善研究結果的可重複性。
《艾瑞網》授權轉載
【延伸閱讀】