傳聞已久、拖了又拖的 OpenAI 模型項目「草莓」,終於現身了。
台灣時間 9 月 13 日淩晨,Open AI 正式發布了其首款具有推理能力的模型,代號為 OpenAI o1 ,包括無所不能的大哥 o1-preview ,和效率驚人的小弟 o1-mini 。
OpenAI 的研究負責人 Jerry Tework 向 The Verge 透露:「 o1 使用了一種全新的優化算法和為其量身定制的新訓練數據集。」也因此模型的命名並未延續 GPT 系列,而是「被命名為 o1 ,以表示‘將計數器重置回 1 ’。」
o1 的革命性意義也正在於此——這代表了大模型能力在推理這條道路上的人新起點,而不是簡單地作為 GPT 系列的延續。
OpenAI o1 來了!
傳聞已久的 o1 一經上線,就在 X 引發廣泛討論:評論區網友拍手叫好,AI 圈網紅 Jim Fan 依舊現身宣傳。
並且 Jim Fan 還表示, o1 的發布里程碑意義在於,它驗證了先前所說的「兩條曲線協同工作」理論,展示了訓練計算和測試計算如何共同影響模型的最終性能。
傳統的模型訓練強調在訓練時投入大量計算資源。而 o1 模型代表了一種新的 AI 模型開發範式。它強調了測試時計算(或推理時計算)的重要性—— o1 通過增加在測試/推理時的計算資源顯著提高了模型性能。
如果說先前的模型是用「直覺」回答問題,那麽 o1 給出的則是深思熟慮後的回答,這一改變來自於背後的「鏈式思考」(Chain-of-thought)機制。
用 OpenAI 研究主管 Mark Chen 的話說就是:「模型在學習自己思考,而不是試圖模仿人類的思維方式。」
簡單來說, o1 在給出回答前會在「腦子」里進行一場內部對話,還會使用「讓我想想」「我在考慮」等短語來展示思考過程。
OpenAI o1 表現如何?
數學方面,在 2024 年美國數學邀請賽(AIME)中,GPT- 4o 的平均正確率為 12% ( 15 道題解決 1.8 題), o1 在首次嘗試的平均正確率就達到了 74% 。通過使用集體決策和高級評分策略, o1 的正確率最高可達 93% 。這一成績不僅讓 o1 躋身全美前 500 名優秀學生之列,還超過了美國數學奧林匹克競賽的入選分數線。
GPQA Diamond 是一項專門評估化學、物理和生物等領域專業知識的測試。 o1 不僅完成了這項測試,還超越了擁有超越了部分擁有相關領域博士學位的人類專家,表明 AI 在特定專業領域的能力已經達到了一個新高度。
寫程式方面, o1 在國際資訊學奧林匹克競賽(IOI)中也表現卓越,在和人類參賽者相同的條件下, o1 獲得了 213 分的高分,位列參賽者的前 50% 。當限制進一步放寬(每個問題的提交次數從 50 提高到 10,000 次), o1 取得了 362.14 的高分,超越了金牌的獲得門檻。
在模擬 Codeforces 平台的競爭性寫程式比賽中, o1 獲得了 1,807 的高分,超越了 93% 的人類競爭者,這一成績遠遠超過了GPT- 4o (Elo 評分為 808 ,僅超過 11% 的人類競爭者)。
簡單來說, o1 是一個非常善於思考、推理的大模型。並且,其運作機制與基於 scaling law 的大模型不同,這讓它不必基於大量的計算消耗來提升性能,而是一個相當垂直的模型。
OpenAI o1 目前有哪些問題?
儘管 o1 模型展現出了卓越的能力,但仍然存在一些值得注意的局限性。
首先,在處理速度方面, o1 可能不如其他模型迅速。
Thomson Reuters 的副總裁 Pablo Arredondo:「 o1 有時需要超過 10 秒才能回答一個問題,這在某些需要快速響應的場景中可能會成為一個問題。」
其次,相較於 GPT- 4o , o1 在功能上還有一些欠缺——目前無法瀏覽網頁,也不能處理文件和圖像。
此外, o1 不是一個多模態模型,這意味著它無法解析圖像或音樂輸入。
在模型輸出的質量方面,OpenAI 承認 o1 存在一些挑戰。根據技術論文中的回饋, o1 似乎比GPT- 4o 更容易產生「幻覺」,即產生看似合理但實際上並不準確的資訊。同時, o1 似乎不如GPT- 4o 那樣經常承認自己不知道答案,這可能會在某些情況下導致誤導性的輸出。
OpenAI 官方特別建議將 o1 用於解決以下領域的複雜問題:科學、編碼、數學和相關領域。
誰可以使用 OpenAI o1?
即日起,ChatGPT Plus 和 Team 用戶可以訪問 o1-preview 和 o1-mini ;企業用戶和 Edu 用戶將於下週獲得訪問權限。OpenAI 計劃為所有 ChatGPT 免費用戶提供 o1-mini 的訪問權限,但尚未確定正式發布日期。
對於 API 訪問,符合 API 使用等級 5 (已經支付 1,000 美元並且超過 30 天)的開發者可以使用 API 中的兩個模型進行原型設計,目前的速率限制為 20 次請求/分鐘。此外,目前的 API 版本還不支持一些高級功能,如函數調用、流式處理和系統消息支持等。
在定價方面,在 API 中, o1-preview 中每 100 萬個 token 的輸入價格為 15 美元,輸出價格為 60 美元,較 GPT- 4o 高出 3-4 倍。
《36氪》授權轉載
【延伸閱讀】