股市投資 小副述文字一共二十個字小副述文字一共二十


基金ETF 小副述文字一共二十個字小副述文字一共二十


全球總經 小副述文字一共二十個字小副述文字一共二十


理財商業 小副述文字一共二十個字小副述文字一共二十


消費信用 小副述文字一共二十個字小副述文字一共二十


保險稅制 小副述文字一共二十個字小副述文字一共二十


房產生活 小副述文字一共二十個字小副述文字一共二十


 
劃時代新模型來了!OpenAI o1 是什麼?能做到哪些事?
作者 36氪
收藏文章
很開心您喜歡 36氪 的文章, 追蹤此作者獲得第一手的好文吧!
36氪
字體放大


分享至 Line

分享至 Facebook

分享至 Twitter


劃時代新模型來了!OpenAI o1 是什麼?能做到哪些事?

2024 年 9 月 13 日

 
展開

傳聞已久、拖了又拖的 OpenAI 模型項目「草莓」,終於現身了。

台灣時間 9 月 13 日淩晨,Open AI 正式發布了其首款具有推理能力的模型,代號為 OpenAI o1 ,包括無所不能的大哥 o1-preview ,和效率驚人的小弟 o1-mini 。

OpenAI 的研究負責人 Jerry Tework 向 The Verge 透露:「 o1 使用了一種全新的優化算法和為其量身定制的新訓練數據集。」也因此模型的命名並未延續 GPT 系列,而是「被命名為 o1 ,以表示‘將計數器重置回 1 ’。

o1 的革命性意義也正在於此——這代表了大模型能力在推理這條道路上的人新起點,而不是簡單地作為 GPT 系列的延續。

OpenAI o1  推特

OpenAI o1 來了!

傳聞已久的 o1 一經上線,就在 X 引發廣泛討論:評論區網友拍手叫好,AI 圈網紅 Jim Fan 依舊現身宣傳。

並且 Jim Fan 還表示, o1 的發布里程碑意義在於,它驗證了先前所說的「兩條曲線協同工作」理論,展示了訓練計算和測試計算如何共同影響模型的最終性能。

傳統的模型訓練強調在訓練時投入大量計算資源。而 o1 模型代表了一種新的 AI 模型開發範式。它強調了測試時計算(或推理時計算)的重要性—— o1 通過增加在測試/推理時的計算資源顯著提高了模型性能。

OpenAI o1  jim

OpenAI o1  greg

如果說先前的模型是用「直覺」回答問題,那麽 o1 給出的則是深思熟慮後的回答,這一改變來自於背後的「鏈式思考」(Chain-of-thought)機制。

用 OpenAI 研究主管 Mark Chen 的話說就是:「模型在學習自己思考,而不是試圖模仿人類的思維方式。

簡單來說, o1 在給出回答前會在「腦子」里進行一場內部對話,還會使用「讓我想想」「我在考慮」等短語來展示思考過程。

OpenAI o1 思考

OpenAI o1 表現如何?

數學方面,在 2024 年美國數學邀請賽(AIME)中,GPT- 4o 的平均正確率為 12% ( 15 道題解決 1.8 題), o1 在首次嘗試的平均正確率就達到了 74% 。通過使用集體決策和高級評分策略, o1 的正確率最高可達 93% 。這一成績不僅讓 o1 躋身全美前 500 名優秀學生之列,還超過了美國數學奧林匹克競賽的入選分數線。

OpenAI o1  數學

GPQA Diamond 是一項專門評估化學、物理和生物等領域專業知識的測試。 o1 不僅完成了這項測試,還超越了擁有超越了部分擁有相關領域博士學位的人類專家,表明 AI 在特定專業領域的能力已經達到了一個新高度。

OpenAI o1  化學

寫程式方面, o1 在國際資訊學奧林匹克競賽(IOI)中也表現卓越,在和人類參賽者相同的條件下, o1 獲得了 213 分的高分,位列參賽者的前 50% 。當限制進一步放寬(每個問題的提交次數從 50 提高到 10,000 次), o1 取得了 362.14 的高分,超越了金牌的獲得門檻。

在模擬 Codeforces 平台的競爭性寫程式比賽中, o1 獲得了 1,807 的高分,超越了 93% 的人類競爭者,這一成績遠遠超過了GPT- 4o (Elo 評分為 808 ,僅超過 11% 的人類競爭者)。

OpenAI o1  程式語言

簡單來說, o1 是一個非常善於思考、推理的大模型。並且,其運作機制與基於 scaling law 的大模型不同,這讓它不必基於大量的計算消耗來提升性能,而是一個相當垂直的模型。

OpenAI o1 目前有哪些問題?

儘管 o1 模型展現出了卓越的能力,但仍然存在一些值得注意的局限性。

首先,在處理速度方面, o1 可能不如其他模型迅速。

Thomson Reuters 的副總裁 Pablo Arredondo:「 o1 有時需要超過 10 秒才能回答一個問題,這在某些需要快速響應的場景中可能會成為一個問題。

其次,相較於 GPT- 4o , o1 在功能上還有一些欠缺——目前無法瀏覽網頁,也不能處理文件和圖像。

此外, o1 不是一個多模態模型,這意味著它無法解析圖像或音樂輸入。

在模型輸出的質量方面,OpenAI 承認 o1 存在一些挑戰。根據技術論文中的回饋, o1 似乎比GPT- 4o 更容易產生「幻覺」,即產生看似合理但實際上並不準確的資訊。同時, o1 似乎不如GPT- 4o 那樣經常承認自己不知道答案,這可能會在某些情況下導致誤導性的輸出。

OpenAI 官方特別建議將 o1 用於解決以下領域的複雜問題:科學、編碼、數學和相關領域。

誰可以使用 OpenAI o1?

即日起,ChatGPT Plus 和 Team 用戶可以訪問 o1-preview 和 o1-mini ;企業用戶和 Edu 用戶將於下週獲得訪問權限。OpenAI 計劃為所有 ChatGPT 免費用戶提供 o1-mini 的訪問權限,但尚未確定正式發布日期。

OpenAI o1  價格

對於 API 訪問,符合 API 使用等級 5 (已經支付 1,000 美元並且超過 30 天)的開發者可以使用 API 中的兩個模型進行原型設計,目前的速率限制為 20 次請求/分鐘。此外,目前的 API 版本還不支持一些高級功能,如函數調用、流式處理和系統消息支持等。

在定價方面,在 API 中, o1-preview 中每 100 萬個 token 的輸入價格為 15 美元,輸出價格為 60 美元,較 GPT- 4o 高出 3-4 倍。

36氪》授權轉載

【延伸閱讀】

 
週餘
 
 
分享文章
分享至 Line
分享至 Facebook
分享至 Twitter
收藏 已收藏
很開心您喜歡 36氪 的文章, 追蹤此作者獲得第一手的好文吧!
36氪
分享至 Line
分享至 Facebook
分享至 Twitter
地圖推薦
 
推薦您和本文相關的多維知識內容
什麼是地圖推薦?
推薦您和本文相關的多維知識內容