2023 年 4 月 19 日,雖然在這個月幾乎每週都至少有一家科技大公司入局訓練大模型,但 OpenAI 卻突然改變了方向聲稱,大模型時代已經要結束了。
為什麼大模型時代即將終結?
上週末在麻省理工學院,OpenAI 的 CEO 在演講中警告稱:我們已經處在大模型時代的尾聲,並表示如今的 AIGC 發展中,將數據模型進一步做大,塞進更多數據的方式,已經是目前人工智慧發展中最後一項重大進展,並且還聲稱目前還不清楚未來的發展方向何去何從。
消息傳出,立即引發很多外界的質疑,OpenAI 本身已經是大模型技術領域最前端的研究機構,為何會說出這種能讓研究方向 180 度掉頭的論調?
在如今的產生式 AI 背後的技術,稱其為大模型甚至已經不夠準確,這些模型所需的參數數量已經是天文數字,稱其為「巨型模型」或許更加準確。
OpenAI 最早的語言模式是 GPT-2 ,於 2019 年公布,發布時就有 15 億個參數,此後隨著 OpenAI 研究人員發現擴大模型參數數量能有效提升模型完善程度,真正引爆 AI 產業浪潮的 GPT-3 發布時,參數數量已經達到了 1,750 億個。
截至目前,OpenAI 並沒有公布最新迭代版本 GPT-4 所用的參數數量。但外界普遍估算其包括的參數量已經達到了 GPT-3 的二十倍 —— 3.5 兆個參數。
但人類網路歷史上被保留下來的各種高質量語料,已經在 GPT- 3 以及後續發布的 GPT- 4 的學習中被消耗殆盡。大模型參數數量仍然可以繼續膨脹下去,但對應數量的高質量數據卻越來越稀缺,因此成長參數數量帶來的邊際效益愈發降低。這如同 AI 產業的「摩爾定律」一般。
除了大模型本身的技術發展方向,Altman 提到的另一個問題:購買大量 GPU 以及建設數據中心的物理限制以及高昂的成本,或許才是更多 AI 大模型開發公司現在所面臨的切膚之痛:營運巨型數據服務中心成本高昂已經是產業公認,但如果是用於 AI 大模型訓練則更是貴上加貴,無論是對電力還是水力的消耗都極其巨大。
即使是 GPT- 4 或 New Bing,也多次因為算力不足不得不公開宣布短時間內暫停訪問。算力已經成為限制 AIGC 進一步拓展使用場景的關鍵桎梏。Altman 的說法的根據,或許也有很大一部分來源於 OpenAI 所面臨的現實原因。
水漲船高的 GPU 價格
在今年三月,輝達(NVIDIA, NVDA-US)專用於大模型參數計算、採用專用 Transformer Engine 架構的輝達 H100NVL 系列發布之後,從中嗅到商機的黃牛也開始借機炒價,售價已經飆升至四萬美元。但這些在當下大模型技術巨大的風口面前似乎都不值一提,目前 H100NVL 系列仍然處於一貨難求的狀態。馬斯克也在 Twitter 上驚呼「似乎每個人和他們的狗都在搶購 GPU」。
不過吐槽歸吐槽,即便是馬斯克也不得不為了自己新成立的 AI 公司而買買買:據《商業內幕》報導,馬斯克已經購入了一萬組輝達最新發布的 GPU 並運至數據中心。並在 Twitter 上聲稱將開發 TruthGPT 來挑戰 ChatGPT。
儘管 Altman 同時還在演講中表示「OpenAI 目前沒有在開發 GPT- 5 」。但在 AI 大模型發展狂奔的路上,沒有人願意真的成為「落後六個月」的那個。
高額的進入成本
根據分析機構 SemiAnalysis 估算,如果按照目前 ChatGPT 的運算處理效率,想要承擔 Google 搜尋目前在全球全部訪問流量,至少需要 410 萬張輝達 A100 GPU。即使只是訓練出目前 ChatGPT 能力的大模型,也需要超過 10,000 個 GPU 來完成,後續營營營運維修修護還需要更多。
這也是如今幾乎你能見到的每個大模型產品都需要「內測邀請碼」的原因:不僅訓練這些大模型燒錢,營運起來更加燒錢。
這種對於計算硬體極度迫切的需求,推動著輝達成為這個市場最大的壟斷者。如今輝達已經占據了計算卡 88% 的市場佔有率,其他選項 —— 例如 Google 開發的 Tensor TPU,甚至不提供對外售賣的選項。
但正如馬斯克「嘴上說暫停訓練半年,實際光速成立 AI 公司」一樣,在大幅地,這也只是 Altman 的一家之言。如今很多後來者的技術發展程度都還遠未到能說出「AI 發展不能靠無腦計算」的程度。但 Altman 所說的確實已經成為如今頭部大模型開發公司正在/即將要面對的棘手問題。
AI 產業也有摩爾定律?
「一味不計成本地堆砌硬體不是未來」已經成為越來越多業內人士的共識。
現在的 AI 發展階段,甚至很多地方都有著網路發展早期時代的即視感:AI 產業的發展也已經出現了「摩爾定律」,訓練大模型所需的大量 GPU 組成的硬體訓練集群,與世界上第一台電腦並沒有本質上的區別。
人工智慧也需要一次「半導體革命」,探索未來也需要更加高效的方式:或許對大模型參數數量的精簡,以及利用多個較小的模型實現處理能力的提升,會是大模型時代結束之後,AIGC 產業的下一個發展方向。
在 ChatGPT 發布之初,針對參數量過高以及關於道德倫理方面的問題,OpenAI 曾公開過一項新的研究:使用一種通過人類回饋來強化學習(RLHF)的技術,對模型數據進行微調。
經過超過一年的測試,OpenAI 由此產生了 InstructGPT,其模型參數量僅有 13 億,只不到原版 ChatGPT 的百分之一,但這個疊帶款不僅表現出更準確的回答能力,甚至在回答中關於事實核查以及負面內容的表現,要好於 ChatGPT 本身。
AutoGPT 的火熱
此外,同樣近期大火的 AutoGPT:使用 GPT- 4 作為底層技術,加入了從網頁中抽取關鍵資訊的能力,根據返回的結果進一步執行命令,幫你自動完成任務處理。突破了只能處理文本相關內容任務的限制。
由此誕生的結果,就是用戶在 AutoGPT 的實際使用中都能明顯感受到,要智能的多的結果,甚至完完全全改變了原本 ChatGPT 常規的使用方式,比如 AutoGPT 能自動完成一整個網頁的代碼實現,甚至還有網友發現 AutoGPT 為了完成最初的任務目標,自行在招聘網站上發布了招聘廣告,吸引其他人來輔助完成。
AI 產業的未來?
這些在應用層面的創新,除了能為大模型技術探索更多的應用場景,也是在 AI 領域探索現有算力之下發展的可能。基於人類回饋即時修改結果的最直觀體驗,就是讓人工智慧變得更加聰慧,同時也是真正意義上能實現「一個人就是一個團隊」的技術。
總體來看,即使當下大模型技術對於 AIGC 的發展至關重要,但長遠來講,AI 絕不會永遠依賴大模型的參數提升以及堆砌算力來構建未來,開發更小更精準的模型,以及更加具體的應用場景,或許已經是下一個時代真正的方向。
屆時,或許是大模型時代的結束,卻是人工智慧時代真正的開始。
《36氪》授權轉載
【延伸閱讀】