劃時代新模型來了！OpenAI o1 是什麼？能做到哪些事？

傳聞已久、拖了又拖的 OpenAI 模型項目「草莓」，終於現身了。

台灣時間 9 月 13 日淩晨，Open AI 正式發布了其首款具有推理能力的模型，代號為 OpenAI o1 ，包括無所不能的大哥 o1-preview ，和效率驚人的小弟 o1-mini 。

OpenAI 的研究負責人 Jerry Tework 向 The Verge 透露：「 o1 使用了一種全新的優化算法和為其量身定制的新訓練數據集。」也因此模型的命名並未延續 GPT 系列，而是「被命名為 o1 ，以表示‘將計數器重置回 1 ’。」

o1 的革命性意義也正在於此——這代表了大模型能力在推理這條道路上的人新起點，而不是簡單地作為 GPT 系列的延續。

OpenAI o1 推特

OpenAI o1 來了！

傳聞已久的 o1 一經上線，就在 X 引發廣泛討論：評論區網友拍手叫好，AI 圈網紅 Jim Fan 依舊現身宣傳。

並且 Jim Fan 還表示， o1 的發布里程碑意義在於，它驗證了先前所說的「兩條曲線協同工作」理論，展示了訓練計算和測試計算如何共同影響模型的最終性能。

傳統的模型訓練強調在訓練時投入大量計算資源。而 o1 模型代表了一種新的 AI 模型開發範式。它強調了測試時計算（或推理時計算）的重要性—— o1 通過增加在測試/推理時的計算資源顯著提高了模型性能。

OpenAI o1 jim

OpenAI o1 greg

如果說先前的模型是用「直覺」回答問題，那麽 o1 給出的則是深思熟慮後的回答，這一改變來自於背後的「鏈式思考」（Chain-of-thought）機制。

用 OpenAI 研究主管 Mark Chen 的話說就是：「模型在學習自己思考，而不是試圖模仿人類的思維方式。」

簡單來說， o1 在給出回答前會在「腦子」里進行一場內部對話，還會使用「讓我想想」「我在考慮」等短語來展示思考過程。

OpenAI o1 思考

OpenAI o1 表現如何？

數學方面，在 2024 年美國數學邀請賽（AIME）中，GPT- 4o 的平均正確率為 12% （ 15 道題解決 1.8 題）， o1 在首次嘗試的平均正確率就達到了 74% 。通過使用集體決策和高級評分策略， o1 的正確率最高可達 93% 。這一成績不僅讓 o1 躋身全美前 500 名優秀學生之列，還超過了美國數學奧林匹克競賽的入選分數線。

OpenAI o1 數學

GPQA Diamond 是一項專門評估化學、物理和生物等領域專業知識的測試。 o1 不僅完成了這項測試，還超越了擁有超越了部分擁有相關領域博士學位的人類專家，表明 AI 在特定專業領域的能力已經達到了一個新高度。

OpenAI o1 化學

寫程式方面， o1 在國際資訊學奧林匹克競賽（IOI）中也表現卓越，在和人類參賽者相同的條件下， o1 獲得了 213 分的高分，位列參賽者的前 50% 。當限制進一步放寬（每個問題的提交次數從 50 提高到 10,000 次）， o1 取得了 362.14 的高分，超越了金牌的獲得門檻。

在模擬 Codeforces 平台的競爭性寫程式比賽中， o1 獲得了 1,807 的高分，超越了 93% 的人類競爭者，這一成績遠遠超過了GPT- 4o （Elo 評分為 808 ，僅超過 11% 的人類競爭者）。

OpenAI o1 程式語言

簡單來說， o1 是一個非常善於思考、推理的大模型。並且，其運作機制與基於 scaling law 的大模型不同，這讓它不必基於大量的計算消耗來提升性能，而是一個相當垂直的模型。

OpenAI o1 目前有哪些問題？

儘管 o1 模型展現出了卓越的能力，但仍然存在一些值得注意的局限性。

首先，在處理速度方面， o1 可能不如其他模型迅速。

Thomson Reuters 的副總裁 Pablo Arredondo：「 o1 有時需要超過 10 秒才能回答一個問題，這在某些需要快速響應的場景中可能會成為一個問題。」

其次，相較於 GPT- 4o ， o1 在功能上還有一些欠缺——目前無法瀏覽網頁，也不能處理文件和圖像。

此外， o1 不是一個多模態模型，這意味著它無法解析圖像或音樂輸入。

在模型輸出的質量方面，OpenAI 承認 o1 存在一些挑戰。根據技術論文中的回饋， o1 似乎比GPT- 4o 更容易產生「幻覺」，即產生看似合理但實際上並不準確的資訊。同時， o1 似乎不如GPT- 4o 那樣經常承認自己不知道答案，這可能會在某些情況下導致誤導性的輸出。

OpenAI 官方特別建議將 o1 用於解決以下領域的複雜問題：科學、編碼、數學和相關領域。

誰可以使用 OpenAI o1？

即日起，ChatGPT Plus 和 Team 用戶可以訪問 o1-preview 和 o1-mini ；企業用戶和 Edu 用戶將於下週獲得訪問權限。OpenAI 計劃為所有 ChatGPT 免費用戶提供 o1-mini 的訪問權限，但尚未確定正式發布日期。

OpenAI o1 價格

對於 API 訪問，符合 API 使用等級 5 （已經支付 1,000 美元並且超過 30 天）的開發者可以使用 API 中的兩個模型進行原型設計，目前的速率限制為 20 次請求/分鐘。此外，目前的 API 版本還不支持一些高級功能，如函數調用、流式處理和系統消息支持等。

在定價方面，在 API 中， o1-preview 中每 100 萬個 token 的輸入價格為 15 美元，輸出價格為 60 美元，較 GPT- 4o 高出 3-4 倍。

《36氪》授權轉載

【延伸閱讀】

週餘

篇