股市投資 小副述文字一共二十個字小副述文字一共二十


基金ETF 小副述文字一共二十個字小副述文字一共二十


全球總經 小副述文字一共二十個字小副述文字一共二十


理財商業 小副述文字一共二十個字小副述文字一共二十


消費信用 小副述文字一共二十個字小副述文字一共二十


保險稅制 小副述文字一共二十個字小副述文字一共二十


房產生活 小副述文字一共二十個字小副述文字一共二十


 
大模型時代即將終結?AI 產業何去何從?Altman 說了什麼?
作者 36氪
收藏文章
很開心您喜歡 36氪 的文章, 追蹤此作者獲得第一手的好文吧!
36氪
字體放大


分享至 Line

分享至 Facebook

分享至 Twitter


大模型時代即將終結?AI 產業何去何從?Altman 說了什麼?

2023 年 4 月 20 日

 
展開

2023 年 4 月 19 日,雖然在這個月幾乎每週都至少有一家科技大公司入局訓練大模型,但 OpenAI 卻突然改變了方向聲稱,大模型時代已經要結束了。

為什麼大模型時代即將終結?

上週末在麻省理工學院,OpenAI 的 CEO 在演講中警告稱:我們已經處在大模型時代的尾聲,並表示如今的 AIGC 發展中,將數據模型進一步做大,塞進更多數據的方式,已經是目前人工智慧發展中最後一項重大進展,並且還聲稱目前還不清楚未來的發展方向何去何從

消息傳出,立即引發很多外界的質疑,OpenAI 本身已經是大模型技術領域最前端的研究機構,為何會說出這種能讓研究方向 180 度掉頭的論調?

在如今的產生式 AI 背後的技術,稱其為大模型甚至已經不夠準確,這些模型所需的參數數量已經是天文數字,稱其為「巨型模型」或許更加準確。

OpenAI 最早的語言模式是 GPT-2 ,於 2019 年公布,發布時就有 15 億個參數,此後隨著 OpenAI 研究人員發現擴大模型參數數量能有效提升模型完善程度,真正引爆 AI 產業浪潮的 GPT-3 發布時,參數數量已經達到了 1,750 億個。

截至目前,OpenAI 並沒有公布最新迭代版本 GPT-4 所用的參數數量。但外界普遍估算其包括的參數量已經達到了 GPT-3 的二十倍 —— 3.5 兆個參數。

但人類網路歷史上被保留下來的各種高質量語料,已經在 GPT- 3 以及後續發布的 GPT- 4 的學習中被消耗殆盡。大模型參數數量仍然可以繼續膨脹下去,但對應數量的高質量數據卻越來越稀缺,因此成長參數數量帶來的邊際效益愈發降低。這如同 AI 產業的「摩爾定律」一般。

除了大模型本身的技術發展方向,Altman 提到的另一個問題:購買大量 GPU 以及建設數據中心的物理限制以及高昂的成本,或許才是更多 AI 大模型開發公司現在所面臨的切膚之痛:營運巨型數據服務中心成本高昂已經是產業公認,但如果是用於 AI 大模型訓練則更是貴上加貴,無論是對電力還是水力的消耗都極其巨大。

大模型時代 數據中心

即使是 GPT- 4 或 New Bing,也多次因為算力不足不得不公開宣布短時間內暫停訪問。算力已經成為限制 AIGC 進一步拓展使用場景的關鍵桎梏。Altman 的說法的根據,或許也有很大一部分來源於 OpenAI 所面臨的現實原因。

水漲船高的 GPU 價格

在今年三月,輝達(NVIDIA, NVDA-US)專用於大模型參數計算、採用專用 Transformer Engine 架構的輝達 H100NVL 系列發布之後,從中嗅到商機的黃牛也開始借機炒價,售價已經飆升至四萬美元。但這些在當下大模型技術巨大的風口面前似乎都不值一提,目前 H100NVL 系列仍然處於一貨難求的狀態。馬斯克也在 Twitter 上驚呼「似乎每個人和他們的狗都在搶購 GPU」。

大模型時代 GPU價格

不過吐槽歸吐槽,即便是馬斯克也不得不為了自己新成立的 AI 公司而買買買:據《商業內幕》報導,馬斯克已經購入了一萬組輝達最新發布的 GPU 並運至數據中心。並在 Twitter 上聲稱將開發 TruthGPT 來挑戰 ChatGPT。

大模型時代 GPU

儘管 Altman 同時還在演講中表示「OpenAI 目前沒有在開發 GPT- 5 」。但在 AI 大模型發展狂奔的路上,沒有人願意真的成為「落後六個月」的那個。

高額的進入成本

根據分析機構 SemiAnalysis 估算,如果按照目前 ChatGPT 的運算處理效率,想要承擔 Google 搜尋目前在全球全部訪問流量,至少需要 410 萬張輝達 A100 GPU。即使只是訓練出目前 ChatGPT 能力的大模型,也需要超過 10,000 個 GPU 來完成,後續營營營運維修修護還需要更多。

這也是如今幾乎你能見到的每個大模型產品都需要「內測邀請碼」的原因:不僅訓練這些大模型燒錢,營運起來更加燒錢。

這種對於計算硬體極度迫切的需求,推動著輝達成為這個市場最大的壟斷者。如今輝達已經占據了計算卡 88% 的市場佔有率,其他選項 —— 例如 Google 開發的 Tensor TPU,甚至不提供對外售賣的選項。

但正如馬斯克「嘴上說暫停訓練半年,實際光速成立 AI 公司」一樣,在大幅地,這也只是 Altman 的一家之言。如今很多後來者的技術發展程度都還遠未到能說出「AI 發展不能靠無腦計算」的程度。但 Altman 所說的確實已經成為如今頭部大模型開發公司正在/即將要面對的棘手問題。

AI 產業也有摩爾定律?

「一味不計成本地堆砌硬體不是未來」已經成為越來越多業內人士的共識。

現在的 AI 發展階段,甚至很多地方都有著網路發展早期時代的即視感:AI 產業的發展也已經出現了「摩爾定律」,訓練大模型所需的大量 GPU 組成的硬體訓練集群,與世界上第一台電腦並沒有本質上的區別。

大模型時代 機房

人工智慧也需要一次「半導體革命」,探索未來也需要更加高效的方式:或許對大模型參數數量的精簡,以及利用多個較小的模型實現處理能力的提升,會是大模型時代結束之後,AIGC 產業的下一個發展方向。

在 ChatGPT 發布之初,針對參數量過高以及關於道德倫理方面的問題,OpenAI 曾公開過一項新的研究:使用一種通過人類回饋來強化學習(RLHF)的技術,對模型數據進行微調。

經過超過一年的測試,OpenAI 由此產生了 InstructGPT,其模型參數量僅有 13 億,只不到原版 ChatGPT 的百分之一,但這個疊帶款不僅表現出更準確的回答能力,甚至在回答中關於事實核查以及負面內容的表現,要好於 ChatGPT 本身。

大模型時代 InstructGPT

AutoGPT 的火熱

此外,同樣近期大火的 AutoGPT:使用 GPT- 4 作為底層技術,加入了從網頁中抽取關鍵資訊的能力,根據返回的結果進一步執行命令,幫你自動完成任務處理。突破了只能處理文本相關內容任務的限制。

由此誕生的結果,就是用戶在 AutoGPT 的實際使用中都能明顯感受到,要智能的多的結果,甚至完完全全改變了原本 ChatGPT 常規的使用方式,比如 AutoGPT 能自動完成一整個網頁的代碼實現,甚至還有網友發現 AutoGPT 為了完成最初的任務目標,自行在招聘網站上發布了招聘廣告,吸引其他人來輔助完成。

大模型時代 AUTOGPT

AI 產業的未來?

這些在應用層面的創新,除了能為大模型技術探索更多的應用場景,也是在 AI 領域探索現有算力之下發展的可能。基於人類回饋即時修改結果的最直觀體驗,就是讓人工智慧變得更加聰慧,同時也是真正意義上能實現「一個人就是一個團隊」的技術。

總體來看,即使當下大模型技術對於 AIGC 的發展至關重要,但長遠來講,AI 絕不會永遠依賴大模型的參數提升以及堆砌算力來構建未來,開發更小更精準的模型,以及更加具體的應用場景,或許已經是下一個時代真正的方向。

屆時,或許是大模型時代的結束,卻是人工智慧時代真正的開始。

36氪》授權轉載

【延伸閱讀】

 
 
週餘
 
 
分享文章
分享至 Line
分享至 Facebook
分享至 Twitter
收藏 已收藏
很開心您喜歡 36氪 的文章, 追蹤此作者獲得第一手的好文吧!
36氪
分享至 Line
分享至 Facebook
分享至 Twitter
地圖推薦
 
推薦您和本文相關的多維知識內容
什麼是地圖推薦?
推薦您和本文相關的多維知識內容