GTC 2023：黃仁勳稱之為“ iPhone 時刻 ”

“切勿錯過 AI 的決定性時刻！”這是輝達（NVIDIA, NVDA-US） 2023 年 GTC 大會的廣告語。不知輝達所說的“決定性時刻”是指黃仁勳在GTC大會主題演講中三次強調的“AI的iPhone時刻”，還是說本屆GTC大會就是AI的“決定性”時刻。

當然，今時今日可能確實是AI的決定性時刻。

從上週三到現在，一系列或驚艷，或不那麽驚艷的最前端 AI 技術接二連三地刷爆科技新聞版面。從 OpenAI 發布 GPT- 4 ，到百度（Baidu, BIDU-US）發布文心一言，再到微軟（Microsoft, MSFT-US）發布 Office 的 AI 助手 Microsoft 365 Copilot，以及 Midjourney 發布能“畫手指”的 V5 版本，甚至幾個小時前，Google 也上線了 Bard 聊天機器人接受排隊測試。

在這樣的 AI 關鍵時刻，手握 GPU 算力技術的輝達自然不會缺席，畢竟在大模型軍備競賽中，作為“軍火商”的輝達，已經贏麻了。

北京時間 3 月 21 日晚 11 點， 2023 春季 GTC 大會正式上線，在大會的主題演講中，黃仁勳圍繞 AI、量子計算、晶片等前端科技，發布了一系列前端技術和產品。

ChatGPT 專用 GPU 可提速 10 倍

圍繞 AI 的發布自然少不了 GPU 的提速，在黃仁勳的主題演講中發布了全新的 GPU 推理平台，該平台包括 4 種不同配置，針對不同工作負載進行優化，分別對應了 AI 影片加速、圖像生成加速、大型語言模型（LLM）加速和推薦系統和 LLM 數據庫。包括： L4 Tensor Core GPU、 L40 GPU、 H100 NVL GPU 和 Grace Hopper 超級晶片。

其中， H100 NVL 是專門為 LLM 設計的 GPU，採用了 Transformer 加速解決方案，可用於處理 ChatGPT。相比於輝達 HGX A100 ，一台搭載四對 H100 和雙 NVLINK 的標準伺服器速度能快 10 倍，可以將大語言模型的處理成本降低一個數量級。此外， H100 NV L配備 94GB HBM3 顯存的 PCIe H100 GPU，採用雙 GPU NVLink，支持商用 PCIe 伺服器輕鬆擴展。

L4 是針對 AI 生成影片的通用 GPU，用於加速 AI 影片，可以提供比 CPU 高 120 倍的性能，能效提升約 99% 。可以優化影片解碼與轉碼、影片內容審核、影片通話等性能，一台 8-GPU L4 伺服器可以取代 100 多台用於處理 AI 影片的雙插槽 CPU 伺服器。目前，輝達 GPU 在 AI 影片生產技術供應商 Runway 的產品中已經提供了相應的技術支持。

L40 則是用於圖像生成，針對 2D 、 3D 圖像生成進行優化，並可以結合 Omniverse，直接生成 3D 內容，甚至是元宇宙內容。該平台推理性能是輝達的雲推理 GPU T4 的 10 倍。

此外，Grace Hopper 超級晶片是為推薦系統和大型語言模型AI數據庫設計的。可用於圖推薦模型、向量數據庫和圖神經網路。它可以通過 900GB /s的高速一致性晶片到晶片接口連接輝達 Grace CPU 和 Hopper GPU。

計算光刻技術提速 40 倍

黃仁勳帶來的另一項革命性技術，也關乎輝達自身的產品研發，是一項聚焦先進晶片設計製造的技術——NVIDIA cuLitho的計算光刻庫。

NVIDIA cuLitho計算光刻庫可以通過計算技術大幅優化晶片製造流程，利用GPU技術實現計算光刻，可以使傳統光刻技術提速 40 倍以上，為 2nm 及更先進晶片的生產提供助力。

事實上，輝達的計算光刻庫在研發過程中，已經與 3 家全球頂尖的晶片製造廠商開展了長達 4 年的合作。包括晶圓製造巨頭台積電（ 2330-TW ）、光刻機製造商艾司摩爾（ASML Holding N.V., ASML-US），以及 EDA 巨頭新思科（Cicso, CSCO-US）技，目前 3 家廠商均已開始將該技術引入晶片設計和製造流程。

“計算光刻是晶片設計和製造領域中最大的計算工作負載，每年消耗數百億 CPU 小時。”黃仁勳介紹說，大型數據中心 24×7 全天候運作，以便創建用於光刻系統的掩膜板。這些數據中心是晶片製造商每年投資近 2000 億美元的資本支出的一部分。

NVIDIA H100 需要 89 塊掩膜板，在 CPU 上運算時，處理單個掩膜板，目前需要 2 周時間。如果在GPU上運作 cuLitho 則只需 8 小時即可處理完一個掩膜板。黃仁勳說：“台積電可以通過在 500 個DGX H100 系統上使用cuLitho加速，將功率從 35MW 降至 5MW ，替代用於計算光刻的 40000 台 CPU 伺服器。”

GPU & 量子計算

除了 AI 和晶片以外，輝達還在研究另一項前端科技——量子計算。

本次GTC上宣布的第一個全新產品就是與 Quantum Machines 合作的 NVIDIA DGX Quantum。該產品結合了通用量子控制系統Quantum Machines OPX+ 和 NVIDIA Grace Hopper 超級晶片，這個平台可以為高性能和低延遲量子經典計算的研究人員提供了一種革命性的新架構。

據黃仁勳介紹，NVIDIA DGX Quantum 是全球首個 GPU 加速的量子計算系統，可以實現 GPU 和量子處理單元（QPU）之間的亞微秒級延遲。這種組合使研究人員能夠建立強大的應用，實現校準、控制、量子糾錯和混合算法，將量子計算與最先進的經典計算相結合。

DGX Quantum 還為開發人員配備了統一軟體棧，混合 GPU-Quantum 編程模型 NVIDIA CUDA Quantum，能夠在同一系統中整合和編程 QPU、GPU 和 CPU，是一個混合型量子經典計算平台。目前，CUDA Quantum 已經開放了源代碼，為開發者提供了更多的支持。

AI 超級計算上雲

本次 GTC 的另一個重頭戲是雲。

輝達發布的 DGX Cloud 雲服務，提供了專用的 NVIDIA DGX AI 超級計算集群，搭配 NVIDIA AI 軟體，使每個企業都可以使用簡單的網路瀏覽器訪問 AI 超算，消除了獲取、部署和管理當地基礎設施的複雜性。

該服務目前已經與 Microsoft Azure、Google GCP 和 Oracle OC I開展合作。每個 DGX Cloud 實例都具有八個 H100 或 A100 80GB Tensor Core GPU，每個節點共有 640GB GPU內存。

使用 NVIDIA Networking 構建的高性能、低延遲結構，可以確保工作負載跨互連系統集群擴展，允許多個實例充當一個巨大的GPU，以滿足高級 AI 訓練的性能要求。

目前，輝達開放的首個 NVIDIA DGX Cloud，是與 Oracle Cloud Infrastructure（OCI）合作的雲服務。用戶可以租用 DGX Cloud 的月租為 36999 美元起。

AI 工廠，製造智能

除了算力以外，輝達還想要通過雲服務，把製造大模型的能力交給更多的用戶。

黃仁勳帶來的另一項關於雲的重磅發布是 NVIDIA AI Foundations，旨在為用戶提供定制化的 LLM 和生成式 AI 解決方案。該服務包括語言模型 NEMO、視覺模型 PICASSO 和生物學模型 BIONEMO。

其中，NEMO 是用於自然語言文本的生成式模型，可以提供 80 億、 430 億、 5300 億參數的模型，且會定期更新額外的訓練數據，可以幫助企業為客服、企業搜尋、聊天機器人、市場分析等場景定制生產生成式 AI 模型。

PICASSO 則用於製作視覺模型，可以用於訓練包括圖像、影片和 3D 應用的生成式 AI 模型。PICASSO 可以通過高文本提示和元數據用 DGX Cloud 上的模型創造 AI 模型。目前輝達已經與 Shutterstock（SSTK-US）合作，開發了 Edify- 3D 生成式 AI 模型。

本次 GTC 輝達還著重關注生物制藥領域。BIONEMO 是專門為用戶提供創建、微調、提供自定義模型的平台，包括AlphaFold、ESMFold、OpenFold 等蛋白質預測模型。生物圈的熱門方向是利用生成式 AI 發現疾病靶因、設計新分子或蛋白類藥物等。

此外，輝達還與 Adobe（ADBE-US）合作，將生成式AI融入行銷人員和創意人士的日常工作流，並開展了對於藝術家版權保護的工作。

總結

有人將 GPU 在深度學習方面的成功比作是中了技術的彩票，但黃仁勳並不這麽認為。他曾多次表示自己在 10 年前就已經看到了 AI 產業的發展潛力，以及 GPU 對 AI 的決定性作用。輝達正是看好這點，才孤注一擲地投入力量開發更適合 AI 的 GPU 產品。

OpenAI 在 2018 年推出的 GPT- 1 ，只有 1.2 億參數量，而最後一個公布了參數量的 GPT- 3 則有 1750 億，雖然有一些專家認為 ChatGPT 和 GPT- 4 的參數量有可能更小，但業界多數的聲音認為，更強大的模型就以為這更大的參數規模，且要消耗更多的算力。

OpenAI 已公布的資訊顯示，在訓練上一代的GPT- 3 時，使用了數千個 NVIDIA V100 GPU。

調研機構 TrendForce 在一份報告中提到，GPT- 3 訓練時大概用到了 20000 個 NVIDIA A100 GPU 左右的算力，而 ChatGPT 商業化後所需的 GPU 數量將達到 30000 個以上。

某AI晶片專家告訴虎嗅，目前 OpenAI 公布的技術細節不多，前期的訓練又都是在輝達的顯卡上做的。“這給了輝達更多針對Transformer的GPU實驗數據，從一定程度上造成了輝達對 ChatGPT 和 GPT- 4 的技術壟斷，從市場競爭的角度說來說，對其他AI 晶片很不利。”

事實上，Google 先前曾推出過針對 TenserFlow 的 TPU 產品，然而，輝達此次發布的 GPU 推理平台針對時下火熱的 GPT 大模型，進行了 Transformer 架構優化，則似乎又領先了 Google 一步。

《虎嗅網》授權轉載

【延伸閱讀】

週餘

篇