NVIDIA 資深研究經理 Jim Fan 盛讚 Deepseek R1：真正體現開源 AI 使命

專家認可

NVIDIA 資深研究經理 Jim Fan 近日在社群媒體上分享了他對 Deepseek R1 的深度評價。作為 GEAR Lab 聯合創始人、Project GR00T 負責人、史丹佛大學博士以及 OpenAI 首位實習生，Fan 的觀點在業內具有重要份量。他特別強調了 DeepSeek 作為非美國公司在 AI 開源發展方面的卓越貢獻。

開源精神的傳承者

Fan 在評論中指出：「我們正生活在一個非美國公司堅持 OpenAI 最初使命的時代——真正開放、前沿的研究，賦能所有人。這看似不合邏輯，但最有趣的結果往往最有可能發生。」他特別讚賞 DeepSeek 不僅開源了大量模型，還完全公開了所有訓練秘訣。

技術創新的深度解析

在仔細閱讀 Deepseek R1 的技術論文後，Fan 重點強調了幾項關鍵技術突破：

純強化學習方法：
- 採用「冷啟動」方法，完全由 RL 驅動，完全未使用 SFT
- 令人聯想到 AlphaZero 從零開始掌握圍棋、將棋和國際象棋的突破
- 被認為是論文中最重大的亮點
創新獎勵機制：
- 使用透過硬編碼規則計算的真實獎勵
- 避免使用 RL 容易作弊的學習型獎勵模型
思考時間的演化：
- 模型的思考時間隨著訓練進程穩步增加
- 這是湧現特性，而非預先編程的行為
GRPO 算法創新：
- 從 PPO 中移除評論家網絡
- 改用多個樣本的平均獎勵
- 透過簡單方法降低記憶體使用量
- 值得注意的是，GRPO 由 DeepSeek 於 2024 年 2 月發明

NVIDIA 資深研究經理 Jim Fan 盛讚 Deepseek R1：真正體現開源 AI 使命

純強化學習方法：
- 採用「冷啟動」方法，完全由 RL 驅動，完全未使用 SFT
- 令人聯想到 AlphaZero 從零開始掌握圍棋、將棋和國際象棋的突破
- 被認為是論文中最重大的亮點
創新獎勵機制：
- 使用透過硬編碼規則計算的真實獎勵
- 避免使用 RL 容易作弊的學習型獎勵模型
思考時間的演化：
- 模型的思考時間隨著訓練進程穩步增加
- 這是湧現特性，而非預先編程的行為
GRPO 算法創新：
- 從 PPO 中移除評論家網絡
- 改用多個樣本的平均獎勵
- 透過簡單方法降低記憶體使用量
- 值得注意的是，GRPO 由 DeepSeek 於 2024 年 2 月發明

NVIDIA 資深研究經理 Jim Fan 盛讚 Deepseek R1：真正體現開源 AI 使命

NVIDIA 資深研究經理 Jim Fan 盛讚 Deepseek R1：真正體現開源 AI 使命

專家認可

開源精神的傳承者

技術創新的深度解析

技術影響力的新範式

持續創新的典範

結語

分類

更多文章

MiniMax-Text-01：以400萬詞元上下文支持革新長文本AI技術

Introducing Conversation Branching - Explore Ideas Without Losing Context

Deepseek R1：徹底改變全端開發的革命性突破

NVIDIA 資深研究經理 Jim Fan 盛讚 Deepseek R1：真正體現開源 AI 使命

NVIDIA 資深研究經理 Jim Fan 盛讚 Deepseek R1：真正體現開源 AI 使命

專家認可

開源精神的傳承者

技術創新的深度解析

技術影響力的新範式

持續創新的典範

結語

分類

更多文章

MiniMax-Text-01：以400萬詞元上下文支持革新長文本AI技術

Introducing Conversation Branching - Explore Ideas Without Losing Context

Deepseek R1：徹底改變全端開發的革命性突破