阿里通義千問 Qwen3 系列模型正式發布,該系列模型在技術上有何突出亮點?

4 月 29 日凌晨,阿里巴巴發布新一代通義千問 Qwen3 模型,登頂全球最強開源模型。作為國內首個“混合推理模型”,它將“快思考”與“慢思考”集成于同一模型,大幅節省算力消耗。后訓練模型及預訓練基座模型已在多平臺開放使用。阿里云開源兩個 MoE 模型權重,分別是擁有 2350 多億總參數和 220 多億激活參數的 Qwen3-235B-A22B ,以及約 300 億總參數和 30 億激活參數的小型 MoE 模型 Qwen3-30B-A3B 。此外,還開源六個在 Apache 2.0 許可下的 Dense 模型。旗艦模型 Qwen3-235B-A22B 在代碼、數學、通用能力等基準測試中,與 DeepSeek-R1 等頂級模型相比極具競爭力;小型 MoE 模型 Qwen3-30B-A3B 激活參數少但表現更優,小模型 Qwen3-4B 性能也能匹敵 Qwen2.5-72B-Instruct 。

請先 登錄 后評論

2 個回答

瀟灑劍客

1、混合推理架構

Qwen3系列初次將“快思考”(非推理模式)與“慢思考”(推理模式)集成至單一模型,通過控制參數enable_thinking實現模式切換。用戶可通過文本后綴/no_think或/think動態調整響應策略,例如在簡單問答中優先速度,在復雜代碼生成或數學推理中啟用深度思考。這種設計使Qwen3-235B-A22B在基準測試中與DeepSeek-R1、Grok-3等模型表現相當,同時顯著降低算力消耗。

2、稀疏激活技術

MoE(Mixture-of-Experts)架構的引入使Qwen3實現參數效率的突破。例如,Qwen3-30B-A3B模型總參數約300億,但僅激活30億參數即可達到QwQ-32B(激活參數超300億)的性能水平,激活參數占比僅為10%。這種稀疏激活機制大幅減少計算資源占用,同時保持模型在STEM、編碼等領域的競爭力。

3、多階段預訓練與長上下文擴展

Qwen3的預訓練分為三階段:

階段一:基于30萬億token進行基礎語言技能訓練,上下文長度4K;

階段二:增加STEM、編程等知識密集型數據,擴展至35萬億token;

階段三:引入高質量長上下文數據,將上下文長度提升至32K(Dense模型)和128K(MoE模型)。

這種漸進式訓練策略使Qwen3-4B等小模型即可匹敵Qwen2.5-72B-Instruct的性能,同時支持超長文本處理。

4、四階段后訓練流程

后訓練流程涵蓋四個關鍵階段:

長思維鏈冷啟動:通過數學、代碼等長思維鏈數據微調,構建基礎推理能力;

長思維鏈強化學習:利用規則獎勵增強模型探索能力;

思維模式融合:將非思考模式整合至推理模型,實現快速響應與深度思考的無縫切換;

通用強化學習:在指令遵循、Agent能力等20余個領域優化模型表現。

該流程使Qwen3在ArenaHard人類偏好對齊測試中得分95.6,超越OpenAI-o1及DeepSeek-R1。

5、多語言與工具調用能力的增強

Qwen3支持119種語言及方言,覆蓋簡體中文、繁體中文、粵語等,并通過Qwen-Agent框架原生支持MCP協議,簡化工具調用流程。例如,在BFCL Agent能力評測中,Qwen3得分70.8,超越Gemini2.5-Pro等模型,顯著降低復雜任務實現門檻。

6、數據規模與質量的雙重提升

預訓練數據量達36萬億token,較Qwen2.5的18萬億token增長近一倍。數據來源包括網上數據爬取、PDF文檔解析(通過Qwen2.5-VL提取文本并優化質量)、數學/代碼數據合成(利用Qwen2.5-Math/Coder生成教材、問答對及代碼片段)。這種多模態數據構建策略為模型提供了跨領域的知識儲備。

7、靈活的部署與成本控制

Qwen3提供從0.6B到235B的參數規模選擇,滿足不同場景需求:

輕量化場景:Qwen3-4B適用于手機端部署;

邊緣計算:Qwen3-8B支持電腦及車載設備;

企業級應用:Qwen3-32B適配大規模推理任務。

例如,Qwen3-235B-A22B僅需4張H20顯卡即可部署,顯存占用為同性能模型的三分之一,顯著降低部署成本。

請先 登錄 后評論
扶搖

1、混合推理模型

Qwen3 是國內初次發布的“混合推理模型”,它把“快思考”和“慢思考”集成到一個模型里。面對復雜問題時,能像人一樣多步驟深入思考;遇到簡單問題,又能快速給出回答。這種設計既提升了模型的智能水平,還降低了算力消耗,挺實用的。

2、多種思考模式

Qwen3 支持兩種思考模式。一種是思考模式,模型會逐步推理,適合復雜問題;另一種是非思考模式,能快速響應,適合簡單問題。用戶能根據具體任務控制模型的思考程度,比如難題可以讓模型多推理幾步,簡單問題直接要答案,靈活性很高。

3、多語言支持

Qwen3 模型支持 119 種語言和方言,像簡體中文、繁體中文、粵語等都在其中。這個廣泛的多語言能力讓它在國際應用上潛力很大,能讓全球更多用戶用上這些模型。

4、預訓練數據量大

Qwen3 的預訓練數據集規模龐大,使用了約 36 萬億個 token,是上一代的兩倍。數據來源多樣,包括網上數據、PDF 文檔等,還通過一些優化方式提高數據質量。經過三個階段的預訓練,模型在處理長輸入、語言技能和通用知識方面更強了。

5、性能表現優異

從官方介紹來看,旗艦模型 Qwen3-235B-A22B 在代碼、數學、通用能力等基準測試中,和 DeepSeek-R1、o1 等模型相比,結果很有競爭力。而且小型 MoE 模型 Qwen3-30B-A3B 激活參數少,性能卻更好,小模型 Qwen3-4B 也能媲美一些更大模型。

6、開源多個模型

阿里云開源了兩個 MoE 模型權重,Qwen3-235B-A22B 和 Qwen3-30B-A3B,還開源了六個 Dense 模型,從 Qwen3-32B 到 Qwen3-0.6B 都有,均在 Apache 2.0 許可下開源。這降低了開發門檻,有利于推動技術發展和應用。

7、部署成本低

Qwen3 的部署成本大幅降低,僅需 4 張 H20 顯卡就能實現“滿血版”部署,顯存占用還小。對于部署,官方推薦了一些框架和工具,進一步簡化了部署流程。

請先 登錄 后評論
美女视频很黄很a免费国产