DeepSeek 是什麼？超低訓練成本？DeepSeek 真的那麼厲害嗎？

短短一個月內，中國 AI 新創公司深度求索（DeepSeek）先後發布了 DeepSeek- V3 和 DeepSeek- R1 兩款大模型，成本價格低廉，性能與 OpenAI 相當，讓矽谷震驚，甚至引發了 Meta 內部的恐慌，工程師們開始連夜嘗試複製 DeepSeek 的成果。

Scale AI 創辦人 Alexander Wang在 1 月 24 日的採訪中表示，DeepSeek 在他們的測試里是表現最好的，與美國最好的模型相當。

先前，Alexander Wang 評價說，DeepSeek- V3 是中國科技界帶給美國的苦澀教訓。「當美國休息時，中國（科技界）在工作，以更低的成本、更快的速度和更強的實力趕上。」

此外，中國 AI「洗版」國外各大媒體，它們認為中國大模型的新進展為矽谷敲響了警鐘。

在 5,000 億美元的「星際之門」計劃公布之際，DeepSeek 以極低的價格建立了一個突破性的 AI 模型，而且沒有使用尖端晶片，這讓人們質疑，AI 產業數千億美元資本的巨額投入真的是最有效的方法嗎？

DeepSeek 是什麼？

DeepSeek（深度求索）是由中國量化投資企業，幻方量化創辦人梁文鋒於 2023 年成立的一家新創 AI 企業，該企業目前已經推出了包括 DeepSeek-R1 在內的數個模型。而這次 DeepSeek-R1 會如此受到眾人關注，是因為此模型據傳是在不到 600 萬美元的投入和 2,048 片較低性能的 H800 晶片的條件下完成訓練的，而且訓練時間僅僅 2 個月，但是在評分上能和 OpenAI o1 等一種前端模型相提並論。

Meta進入恐慌模式，試圖複製 DeepSeek

1 月 24 號，一條發布在匿名平台 teamblind 上的文章瘋傳。一名 Meta 員工稱，現在 Meta 內部因為 DeepSeek 的模型，已經進入恐慌模式。

這位 Meta 員工寫道：

「一切源於 DeepSeek- V3 的出現，它在基準測試中已經讓 Llama 4 相形見絀。更讓人難堪的是，一家僅用 550 萬美元訓練預算的中國公司就做到了這一點。

工程師們正在爭分奪秒地分析 DeepSeek，試圖複製其中的一切可能技術。這絕非誇張。

管理層正為 GenAI 研發部門的巨額投入而發愁。當部門里一個高層的薪資就超過訓練整個DeepSeek V3 的成本，而且這樣的高層還有數十位，他們該如何向高層交代？

DeepSeek- R1 的出現讓情況更加嚴峻。具體細節屬於機密，不便透露，不過很快就會公開了。」

2024 年 12 月 27 日，DeepSeek 推出開源模型 DeepSeek- V3 。當時，聊天機器人競技場（Chatbot Arena）顯示，DeepSeek- V3 在所有模型中排名第七，在開源模型排第一。而且，DeepSeek- V3 是全球前十中 CP 值最高的模型。

不到一個月之後，今年 1 月 20 日，DeepSeek 正式開源 R1 推理模型，允許所有人在遵循 MIT License（注：被廣泛使用的一種軟體許可條款）的情況下，蒸餾 R1 訓練其他模型。

1 月 24 日，DeepSeek- R1 在聊天機器人競技場綜合榜單上排名第三，與頂尖推理模型 o1 並列。

在高難度提示詞、代碼和數學等技術性極強的領域，DeepSeek- R1 拔得頭籌，位列第一。

在風格控制方面，DeepSeek- R1 與 o1 並列第一，意味著模型在理解和遵循用戶指令，並按照特定風格產生內容方面表現出色。

在高難度提示詞與風格控制結合的測試中，DeepSeek- R1 與 o1 也並列第一，進一步證明了其在複雜任務和精細化控制方面的強大能力。

DeepSeek 排行榜

Artificial-Analysis 對 DeepSeek- R1 的初始基準測試結果也顯示，DeepSeek- R1 在 AI 分析質量指數中取得第二高分，價格是 o1 的約三十分之一。

中國 AI 已追上美國？

去年 12 月 DeepSeek- V3 發布後，AI 數據服務公司 Scale AI 創辦人 Alexander Wang 就發帖稱，DeepSeek- V3 是中國科技界帶給美國的苦澀教訓。「當美國休息時，中國（科技界）在工作，以更低的成本、更快的速度和更強的實力趕上。」

著名投資公司 A16z 的創辦人馬克·安德森 1 月 24 日發文稱，Deepseek- R1 是他見過的最令人驚嘆、最令人印象深刻的突破之一，而且還是開源的，它是給世界的一份禮物。

1 月 24 日， A16z 合夥人、Mistral AI 董事會成員 Anjney Midha 表示：「從史丹佛到麻省理工，DeepSeek- R1 幾乎一夜之間成為美國頂尖大學研究人員的首選模型。」

對於中國 AI 為何能有如此快速的進展，諾獎得主、「AI 教父」傑弗里·辛頓在 1 月 21 日接受博主 Curt Jaimungal 專訪中表示，中國的 STEM（科學、技術、工程、數學）教育比美國更好，擁有更多受過良好教育的人才，這將為 AI 的發展提供堅實的基礎。儘管美國試圖通過限制（如輝達（NVIDIA, NVDA-US）晶片）來減緩中國的發展，但這只會促使中國加速發展自己的技術，「他們可能會落後幾年，但最終會趕上」。

DeepSeek 或徹底改變遊戲？

史丹佛大學和 Epoch AI 的研究人員在 2024 年年中發表的一項研究表明，到 2027 年，最大型的模型的訓練成本將超過 10 億美元。Gartner預測，到 2028 年Google、Microsoft 和 AWS 等超大規模企業僅在 AI 伺服器上的支出就將高達 5,000 億美元。

但 DeepSeek 完全不同，它的訓練成本並不昂貴。Noah’s Arc 資本管理公司表示，DeepSeek- V3 模型有可能徹底改變訓練和推理領域的遊戲規則。

特別是在 5,000 億美元的「星際之門」計劃公布後，DeepSeek 更讓人懷疑，巨額投入這種「大力出奇蹟」的辦法真是最有效的方法嗎？

美股大 V（大量粉絲關注的意見領袖）「THE SHORT BEAR」 1 月 24 日在 X 上發文稱，DeepSeek 給 AI 巨頭們帶來了痛苦時刻，投資者必須對此敲響警鐘。

他說：「如果擊敗 OpenAI 只需要 5,500 萬美元，那麽這個產業的商業化會比很多人預想的要快很多。」

他還指出：「根據紅杉，美國 AI 公司每年必須產生約 6,000 億美元收入來支付其 AI 硬體費用。現在看來，這種冒險行為變得越來越無利可圖。」

著名財經記者 Holger Zschaepitz 1 月 25 日表示，DeepSeek 以極低的價格建立了一個突破性的 AI 模型，而且沒有使用尖端晶片，這讓人們質疑該產業數千億美元資本支出的效用。

DeepSeek 資本

有投資者甚至認為，美股晶片股的股價也會面臨挑戰。

投資者 Geiger Capital 表示，Deepseek 和 OpenAI 一樣好，甚至更好，而且價格只有後者的 3% ……而美國公司卻投入了數千億美元。那麽……納斯達克會怎樣呢？

值得注意的是，DeepSeek- V3 發布後，輝達股價下跌了 2% 。而 DeepSeek- R1 引發海外大討論後， 1 月 24 日輝達股價又大跌了 3.12% 。

DeepSeek 給矽谷敲響警鐘

如果說 DeepSeek- V3 只是掀起了波瀾，那麽 DeepSeek- R1 則是引發了轟動。最近四天，國外媒體紛紛聚焦 DeepSeek，並一致認為中國大模型的新進展為矽谷敲響了警鐘。

1 月 22 日，美國媒體Business Insider據報導，DeepSeek- R1 模型秉承開放精神，完全開源，為美國 AI 玩家帶來了麻煩。開源的先進 AI 可能挑戰那些試圖通過出售技術賺取巨額利潤的公司。

1 月 24 日，美國媒體 CNBC 推出了長達 40 分鐘的節目，邀請了 Perplexity CEO Aravind Srinivas 來分析為何 DeepSeek 會引發人們對美國在 AI 領域的全球領先地位是否正在縮小的擔憂。

英國《金融時報》 1 月 25 日據報導，中國小型 AI 新創公司 DeepSeek 震驚矽谷。報導聚焦資源更豐富的美國 AI 公司能否捍衛自己的技術優勢。

DeepSeek financial time

報導援引加州大學伯克利分校 AI 政策研究員 Ritwik Gupta 稱，DeepSeek 最近發布的模型表明「AI 能力沒有護城河」。Gupta 補充說，中國的系統工程師人才庫比美國大得多，他們懂得如何充分利用計算資源來更便宜地訓練和運作模型。

《虎嗅網》授權轉載

【延伸閱讀】

週餘

篇