“ 只需一張 GeForce 顯卡,每個學生都可以擁有一台超級電腦,這正是 Alex Krizhevsky、Ilya 和 Hinton 當年訓練 AI 模型AlexNet 的方式。透過搭載在超級電腦中的 GPU ,我們現在能讓科學家們在 youxian 的一生之中追逐無盡的科學事業。 ” 輝達( NVIDIA , NVDA-US)創辦人兼執行長黃仁勳說道。
4 月 12 日晚,輝達 GTC 2021 大會線上上開始了。或許是因為長期遠程辦公不用出門,人們驚訝地看到在自家廚房講 Keynote 的黃老闆居然留了一頭搖滾的長髮:如果你只是對他的黑色皮衣印象深刻,先對比一下 2019 年、 2020 年和 2021 年的 GTC ,老黃氣質越來越搖滾。如此氣質,黃仁勳今天推出的新產品肯定會與眾不同。
“ 這是世界第一款為 terabyte 級別計算設計的 CPU 。 ” 在 GTC 大會上,黃仁勳祭出了輝達的首款中央處理器 Grace ,和其面對超大型 AI 模型的高性能計算。
一、輝達也要做 CPU 了
Grace 使用相對能耗較低的 Arm 核心,但它又可以為訓練超大 AI 模型的系統提供 10 倍左右的性能提升。輝達表示,它是超過一萬名工程人員歷經幾年的研發成果,旨在滿足目前世界最先進應用程式的計算需求,其具備的計算性能和吞吐速率是以往任何架構所無法比擬的。
“ 結合 GPU 和 DPU , Grace 為我們提供了第三種基礎計算能力,並具備重新定義數據中心架構、推進 AI 前進的能力。 ” 黃仁勳說道。
Grace 的名字來自於電腦科學家、世界最早一批的程式員,也是最早的女性程式員之一的格蕾絲・赫柏( Grace Hopper)。她創造了現代第一個編譯器A- 0 系統,以及第一個高級商用電腦程式語言 “ COBOL ” 。電腦術語 “ Debug ” (調試)便是她在受到從電腦中驅除蛾子的啟發而開始使用的,於是她也被冠以 “ Debug 之母 ” 的稱號。
輝達的 Grace 晶片利用 Arm 架構的靈活性,是專為加速計算而設計的 CPU 和伺服器架構,可用於訓練具有超過 1 兆參數的下一代深度學習預訓練模型。在與輝達的 GPU 結合使用時,整套系統可以提供相比當今基於 x86 CPU 的最新 NVIDIA DGX 快 10 倍的性能。目前輝達自家的 DGX ,使用的是 AMD (Advanced Micro Devices, AMD -US) 7 奈米製程的 Rome 架構 CPU 。
據介紹, Grace 採用了更為先進的 5nm 製程,在內部通訊能力上,它使用了輝達第四代 NVIDIA NVLink,在 CPU 和 GPU 之間提供高達 900 GB/s的雙向頻寬,相比之前的產品提升了八倍。 Grace 還是第一個透過錯誤校正代碼(ECC)等機制利用 LPDDR5x 內處理器系統提供伺服器級可靠性的 CPU ,同時提供 2 倍的內處理器頻寬和高達 10 倍的能源效率。在架構上,它使用下一代 Arm Neoverse內核,以高能效的設計提供高性能。
基於這款 CPU 和仍未發布的下一代 GPU ,瑞士國家超級計算中心、蘇黎世聯邦理工大學將構建一台名為 “ 阿爾卑斯 ” 的超級電腦,算力 20 Exaflops (目前全球第一超算 “ 富嶽 ” 的算力約為 0.537 Exaflops ),將實現兩天訓練一次GPT- 3 模型的能力,比目前基於輝達 GPU 打造的Selene超級電腦快 7 倍。
美國能源部下屬的洛斯阿拉莫斯國家實驗室也將在 2023 年推出一台基於 Grace 的超級電腦。Grace 可以說是輝達在今年 GTC 上最引人關注的產品了,它高度特化的設計與透過PCIe 鏈接的 x86 版 CPU – GPU 系統大為不同,進而可以實現更好的性能。
二、 GPU + CPU + DPU ,三管齊下
“ 簡單說來,目前市場上每年交付的 3,000 萬台數據中心伺服器中,有 1 / 3 用於運作軟體定義的數據中心堆棧,其負載的成長速度遠遠快於摩爾定律。除非我們找到加速的辦法,否則用於運作應用的算力將會越來越少。 ” 黃仁勳說道。 “ 新時代的電腦需要新的晶片、新的系統架構、新的網路、新的軟體和工具。 ”
除了造 CPU 的大新聞以外,輝達還在一個半小時的 Keynote 裡陸續發布了大量重要軟硬體產品,涵蓋了 AI 、汽車、機器人、 5G 、即時圖形、雲端協作和數據中心等領域的最新進展。輝達的技術,為我們描繪出了一幅令人神往的未來願景。
- 首先是用於訓練 Transformers 的框架—— NVIDIA Megatron。Transformers 已幫助開發者在自然語言處理領域取得了突破性進展。
- 面對醫藥領域,輝達發布了一些用於計算藥物研發加速庫 Clara Discovery 的新模型,並介紹了一個基於物理學和機器學習的頂尖藥物研發與材料科學計算平台 Schrodinger。
- 在量子計算領域中,輝達發布了量子計算模擬環境 cuQUANTUM,其有助於加快有賴於量子位(或量子比特,能作為單個的 0 或 1 存在,也可以同時作為二者存在)的量子計算研究,為量子電路模擬器提供加速,從而助力研究人員設計出更完善的量子電腦。
- 為了保障現代化數據中心的安全,輝達發布了 Morpheus 數據中心安全平台,其基於 NVIDIA AI 、 NVIDIA BlueField 、Net-Q 網路遙測軟體和 EGX 而構建,能夠對完整的數據包進行即時檢測。
- 為加快對話式 AI 的發展,輝達發布了對話人工智慧—— NVIDIA Jarvis 的新版本,其能夠實現語音識別、語言理解、翻譯和表達性語音,同時也支持了更多種類的語言。
- 推薦系統是用於搜尋、廣告、線上購物、音樂、書籍、電影、用戶產生內容和新聞等領域的引擎,為加快推薦系統的速度,黃仁勳宣布 NVIDIA Merlin 現可透過 NGC ( NVIDIA 的深度學習框架容器目錄)取得。
- 為幫助客戶將自身專業知識應用於 AI 領域,同時保護數據隱私,輝達發布了 NVIDIA TAO,其可以運用客戶和合作夥伴的數據,對 NVIDIA 預訓練模型進行微調和適配。
- 推理伺服器 NVIDIA Triton,它可以從進入客戶 EGX 伺服器或云實例的連續數據流中獲取洞察。黃仁勳說: “ 這包括任何在 cuDNN上運作的 AI 模型,也就是幾乎所有的 AI ,包括來自 TensorFlow、Pytorch、ONNX、OpenVINO、TensorRT 或自定義 C++/python 後台等的任何框架。 ”
黃仁勳發布了 BlueField – 3 DPU ,其將為構建超大規模數據中心、工作站和超級電腦所需的基礎設施提供進一步的加速。這款新一代數據處理器將提供最強大的軟體定義網路、儲存和網路安全加速功能。據介紹,一個 BlueField – 2 能夠實現相當於 30 塊 CPU 核心的工作負載,而 BlueField – 3 在此基礎上又實現了 10 倍的性能飛躍,能夠替代 300 個 CPU 核心,以 400Gbps 的速率,對網路流量進行保護、卸載和加速。
黃仁勳表示,輝達全新的數據中心路線圖已包括 CPU 、 GPU 和 DPU 三類晶片,而 Grace 和 BlueField 是其中必不可少的關鍵組成部分。投身 Arm 架構的 CPU ,並不意味著輝達會放棄原有的 x86 、Power等架構,黃仁勳將輝達重新定義為 “ 三晶片 ” 公司,涵蓋 CPU 、 GPU 和 DPU 。
三、未來的發展節奏
黃仁勳表示: “ 我們的發展將涵蓋三個產品線—— CPU 、 GPU 和 DPU ,以每兩年一次更新的節奏進行,第一年更新 x86 ,第二年就更新 Arm 。 ”
最後是自動駕駛。 “ 對於汽車而言,更高的算力意味著更加智慧化,開發者們也能讓產品更快迭代。TOPS 就是新的馬力。 ” 黃仁勳說道。
輝達將於 2022 年投產的 NVIDIA 自動駕駛汽車計算系統級晶片—— NVIDIA DRIVE Orin,旨在成為涵蓋自動駕駛和智能車機的汽車中央電腦。搭載Orin的量產車現在還沒法買到,但輝達已經在為下一代,超過 L5 駕駛能力的計算系統作出計劃了。
Atlan 是這家公司為汽車產業設計的下一代 SoC ,其將採用 Grace 下一代 CPU 和下一代安培架構 GPU ,同時也集成數據處理單元( DPU )。如此一來,Atlan可以達到每秒超過 1,000 兆次(TOPS)運算次數。如果一切順利的話, 2025 年新生產的車型將會搭載 Atlan 晶片。
與此同時,輝達還展示了 Hyperion 8 自動駕駛汽車平台,業內算力最強的自動駕駛汽車模板——搭載了 3 套 Orin 中心電腦。
不知這些更強的晶片和系統,能否應付未來幾年裡人們對於算力無窮無盡的需求。在 GTC 2021 上,輝達對於深度學習模型的指數成長圖又更新了。 “ 三年間,大規模預訓練模型的參數量增加了 3,000 倍。我們估計在 2023 年會出現 100 兆參數的模型。 ” 黃仁勳說道。
輝達今天發布的一系列產品,讓這家公司在幾乎所有產業和領域都能為你提供最強大的機器學習算力。在黃仁勳的 Keynote 發表時,這家公司的股票一度突破了 600 美元大關。
“ 20 年前,這一切都只是科幻小說的情節; 10 年前,它們只是夢想;今天,我們正在實現這些願景。
輝達每年在 GTC 大會上發布的新產品,已經成為了產業發展的風向。不知在 Grace 推出之後,未來我們的伺服器和電腦是否會快速進入 Arm 時代。
《虎嗅網》授權轉載
【延伸閱讀】