
NVIDIA 資深研究經理 Jim Fan 盛讚 Deepseek R1:真正體現開源 AI 使命
@NVIDIA 資深研究經理 Jim Fan 在社群媒體上稱讚 Deepseek R1 的開源貢獻與技術創新,強調其在維護開放性與推進前沿研究方面的重要意義
NVIDIA 資深研究經理 Jim Fan 盛讚 Deepseek R1:真正體現開源 AI 使命
專家認可
NVIDIA 資深研究經理 Jim Fan 近日在社群媒體上分享了他對 Deepseek R1 的深度評價。作為 GEAR Lab 聯合創始人、Project GR00T 負責人、史丹佛大學博士以及 OpenAI 首位實習生,Fan 的觀點在業內具有重要份量。他特別強調了 DeepSeek 作為非美國公司在 AI 開源發展方面的卓越貢獻。
開源精神的傳承者
Fan 在評論中指出:「我們正生活在一個非美國公司堅持 OpenAI 最初使命的時代——真正開放、前沿的研究,賦能所有人。這看似不合邏輯,但最有趣的結果往往最有可能發生。」他特別讚賞 DeepSeek 不僅開源了大量模型,還完全公開了所有訓練秘訣。
技術創新的深度解析
在仔細閱讀 Deepseek R1 的技術論文後,Fan 重點強調了幾項關鍵技術突破:
-
純強化學習方法:
- 採用「冷啟動」方法,完全由 RL 驅動,完全未使用 SFT
- 令人聯想到 AlphaZero 從零開始掌握圍棋、將棋和國際象棋的突破
- 被認為是論文中最重大的亮點
-
創新獎勵機制:
- 使用透過硬編碼規則計算的真實獎勵
- 避免使用 RL 容易作弊的學習型獎勵模型
-
思考時間的演化:
- 模型的思考時間隨著訓練進程穩步增加
- 這是湧現特性,而非預先編程的行為
-
GRPO 算法創新:
- 從 PPO 中移除評論家網絡
- 改用多個樣本的平均獎勵
- 透過簡單方法降低記憶體使用量
- 值得注意的是,GRPO 由 DeepSeek 於 2024 年 2 月發明
技術影響力的新範式
Fan 特別指出,AI 影響力可以透過不同方式實現:「影響力可以透過『內部實現 ASI』或神話般的名稱如『Project Strawberry』來達成,也可以透過單純公開原始算法和 matplotlib 學習曲線來實現。」這一觀點強調了開放性和透明度的重要性。
持續創新的典範
在 Fan 看來,DeepSeek 可能是第一個展示 RL 飛輪持續顯著增長的開源項目。這種持續的技術進步和開放態度,為整個 AI 社群樹立了重要標竿。
結語
Jim Fan 的評價不僅肯定了 Deepseek R1 的技術成就,更強調了其對 AI 民主化和開源精神的重要貢獻。作為業界權威,他的認可進一步印證了 DeepSeek 在全球 AI 領域的重要地位。
若想親身體驗 Deepseek R1 的創新,請造訪 Deepseek R1 Chat。