1、混合推理架構
Qwen3系列初次將“快思考”(非推理模式)與“慢思考”(推理模式)集成至單一模型,通過控制參數enable_thinking實現模式切換。用戶可通過文本后綴/no_think或/think動態調整響應策略,例如在簡單問答中優先速度,在復雜代碼生成或數學推理中啟用深度思考。這種設計使Qwen3-235B-A22B在基準測試中與DeepSeek-R1、Grok-3等模型表現相當,同時顯著降低算力消耗。
2、稀疏激活技術
MoE(Mixture-of-Experts)架構的引入使Qwen3實現參數效率的突破。例如,Qwen3-30B-A3B模型總參數約300億,但僅激活30億參數即可達到QwQ-32B(激活參數超300億)的性能水平,激活參數占比僅為10%。這種稀疏激活機制大幅減少計算資源占用,同時保持模型在STEM、編碼等領域的競爭力。
3、多階段預訓練與長上下文擴展
Qwen3的預訓練分為三階段:
階段一:基于30萬億token進行基礎語言技能訓練,上下文長度4K;
階段二:增加STEM、編程等知識密集型數據,擴展至35萬億token;
階段三:引入高質量長上下文數據,將上下文長度提升至32K(Dense模型)和128K(MoE模型)。
這種漸進式訓練策略使Qwen3-4B等小模型即可匹敵Qwen2.5-72B-Instruct的性能,同時支持超長文本處理。
4、四階段后訓練流程
后訓練流程涵蓋四個關鍵階段:
長思維鏈冷啟動:通過數學、代碼等長思維鏈數據微調,構建基礎推理能力;
長思維鏈強化學習:利用規則獎勵增強模型探索能力;
思維模式融合:將非思考模式整合至推理模型,實現快速響應與深度思考的無縫切換;
通用強化學習:在指令遵循、Agent能力等20余個領域優化模型表現。
該流程使Qwen3在ArenaHard人類偏好對齊測試中得分95.6,超越OpenAI-o1及DeepSeek-R1。
5、多語言與工具調用能力的增強
Qwen3支持119種語言及方言,覆蓋簡體中文、繁體中文、粵語等,并通過Qwen-Agent框架原生支持MCP協議,簡化工具調用流程。例如,在BFCL Agent能力評測中,Qwen3得分70.8,超越Gemini2.5-Pro等模型,顯著降低復雜任務實現門檻。
6、數據規模與質量的雙重提升
預訓練數據量達36萬億token,較Qwen2.5的18萬億token增長近一倍。數據來源包括網上數據爬取、PDF文檔解析(通過Qwen2.5-VL提取文本并優化質量)、數學/代碼數據合成(利用Qwen2.5-Math/Coder生成教材、問答對及代碼片段)。這種多模態數據構建策略為模型提供了跨領域的知識儲備。
7、靈活的部署與成本控制
Qwen3提供從0.6B到235B的參數規模選擇,滿足不同場景需求:
輕量化場景:Qwen3-4B適用于手機端部署;
邊緣計算:Qwen3-8B支持電腦及車載設備;
企業級應用:Qwen3-32B適配大規模推理任務。
例如,Qwen3-235B-A22B僅需4張H20顯卡即可部署,顯存占用為同性能模型的三分之一,顯著降低部署成本。