前言

Microsoft 的 Superintelligence team 在 2026 年 6 月 2 日正式推出了 MAI-Code-1-Flash——一個專為日常開發者工作流設計的高效編碼模型。這個模型由 Microsoft 端到端打造,使用乾淨且具合法授權的資料訓練,目前已開始部署到 GitHub Copilot 的 VS Code 個人版使用者中。

簡單來說,這是 Microsoft 在「讓 AI 真正好用」這條路上又踏出的一步。

三大核心能力

根據官方公告,MAI-Code-1-Flash 主打三個特色:

  1. Agentic Coding(智能代理編碼):模型直接在 GitHub Copilot harness 環境中訓練,能與開發者日常使用的工具和系統無縫協作,不是只在實驗室跑分,而是在真實環境中學習如何寫碼。
  2. Adaptive Thinking(自適應思考):遇到簡單任務時保持精簡,遇到複雜問題時自動分配更多推理預算。這就像一個懂得看場合的同事——小事不廢話,大事肯花時間。
  3. 強指令遵循能力:無論是一次性提問還是多輪對話,都能精準理解並執行開發者的意圖。

為什麼說「為開發者而生,不是為跑分而生」?

這可能是這篇文章最關鍵的概念。大多數 AI 編碼模型的訓練目標是「在 benchmark 上拿高分」,但 MAI-Code-1-Flash 反其道而行——它在 GitHub Copilot 的生產環境中直接訓練,用真實開發者的使用數據來優化模型。

訓練過程中,團隊評估了核心軟體工程任務、倉庫問答、重構能力,以及從真實 Copilot 使用記錄中提取的遥測數據任務。這種「訓練、評估、生產」三者一致的方法,確保了實驗室裡的改進能真正轉化為開發者的體驗提升。

每個 token 都要花在刀口上

MAI-Code-1-Flash 引入了 自適應解決方案長度控制(Adaptive Solution Length Control) 技術。用白話來說:

  • 簡單任務 → 精簡回答,少花 token
  • 複雜任務 → 深入分析,多花 token

實際效果是:在 SWE-Bench Verified 上,MAI-Code-1-Flash 解決難題時最多少了 60% 的 token 用量。這不僅降低了延遲和成本,更讓互動式工作流變得更順暢——開發者不用等那麼久就能看到有用的輸出。

實測表現:全面擊敗 Claude Haiku 4.5

Microsoft 用同一套生產環境的 harness,在四個核心編碼基準測試中將 MAI-Code-1-Flash 與 Claude Haiku 4.5 對決,結果如下:

基準測試MAI-Code-1-FlashClaude Haiku 4.5
SWE-Bench Verified
SWE-Bench Pro51.2%35.2%
SWE-Bench Multilingual
Terminal Bench 2

特別值得關注的是 SWE-Bench Pro——這套測試涵蓋更多樣化的真實世界任務,MAI-Code-1-Flash 以 +16 個百分點大幅領先。

除了編碼能力,模型在數學、科學推理、視覺生成編碼等核心推理能力上也優於 Haiku 4.5。在 Microsoft 自建的 186 題、34 個類別的對抗性陷阱基準測試中,MAI-Code-1-Flash 達到了 85.8% 的調整後準確率,尤其在推理、指令遵循和識別「不可能問題」方面表現突出。

怎麼用?

對個人開發者來說,幾乎零門檻:

  1. 打開 VS Code
  2. 安裝或更新 GitHub Copilot
  3. 在模型選擇器中可以看到 MAI-Code-1-Flash,或者系統會自動透過 Auto picker 路由到這個模型

不需要額外的設定或配置。

我的看法

MAI-Code-1-Flash 最讓我感興趣的不是它的跑分數字,而是它背後的設計哲學——「在真實環境中訓練,為真實使用者優化」。這跟過去那些只在 benchmark 上刷分的模型有本質上的不同。

特別是「自適應思考」這個概念,我認為是 AI 編碼助手進化的重要方向。想像一下:當你問一個簡單的 import 語法,它三行搞定;當你要求重構一個複雜的系統架構,它願意花更多時間深度分析。這種「懂得分配注意力」的能力,會讓 AI 助手從「工具」升級為「夥伴」。

當然,Microsoft 也誠實地指出模型仍有成長空間——在某些「Einstellung traps」(設定陷阱,即模型被既有模式綁住而無法靈活思考的場景)準確率仍低於 50%。這說明這條路還長,但方向是對的。


參考來源:Introducing MAI-Code-1-Flash | Microsoft AI