DeepSeekV3 vs Claude-Sonnet vs o1-Mini vs Gemini-ept-1206：真實場景下的AI編程助手測試

在當今AI輔助編程的世界中，選擇合適的AI助手變得愈發重要。作為AI編程助手的長期使用者，我最近在一個真實項目中進行了一項有趣的實驗，對比了四款主流AI編程助手。這個實驗不僅讓我對各個模型有了更深入的了解，還揭示了一些令人驚訝的結果。

實驗背景：真實的開發需求

在聖誕假期期間，我開始開發一個更智能的家庭助手項目，目標是打造比Google Home和Alexa更好的產品。其中一個關鍵功能是實現AI記憶系統——例如當用戶說「我不喜歡雞蛋，記住這一點」時，系統會在未來避免推薦含有雞蛋的食譜。

為了實現這個功能，我需要開發一個Azure Functions項目作為代理，處理與Azure Table Storage的數據交互，並將其集成到現有的Blazor WASM應用程序中。這個看似簡單的需求實際上涉及項目創建、雲端部署和現有項目功能擴展等多個方面，非常適合測試AI編程助手。

Claude-Sonnet：可靠的老將

Claude-Sonnet的表現就像一位經驗豐富的資深工程師。在整個開發過程中，它展現了卓越的代碼質量控制能力，自動檢測並修復代碼中的問題，甚至在部署後智能地預填工具URL。然而這位「老將」的服務並不便宜。在基礎API版本中，僅花費0.2美元就觸及了限制，不得不轉向OpenRouter。更令人驚訝的是，通過OpenRouter的成本飆升至2.1美元，且性能有所下降。

DeepSeekV3的表現確實令人印象深刻。我通過OpenRouter和官方API分別進行了測試，結果差異明顯。通過OpenRouter時，它顯得有些笨拙，存在代碼重複和功能有限的問題。然而在使用官方API時，它簡直像是換了一個模型——代碼質量幾乎與Claude相當，運行流暢，且解決方案獨特。最令人印象深刻的是其價格優勢，僅花費0.02美元就完成了整個任務。在部署階段，雖然選擇了更傳統的手動zip部署方式，但它展現了一些驚人的能力，比如自主查找資源和構建存儲連接字符串。

Gemini-ept-1206：有潛力新秀的成長煩惱

Gemini給人的感覺是一個有潛力但經驗不足的新秀。它在所有模型中展現了最強的交互性，主動詢問運行時版本等細節。在部署配置方面表現出色，預見性地設置環境變量。但同時也顯示出一些「成長煩惱」：處理速度緩慢，經常需要20分鐘完成任務；token限制約束，頻繁需要多個會話；最令人沮喪的是，即使過了24小時，其成本統計仍然不透明，無法準確評估使用成本。