阿里通義千問 Qwen3 系列模型正式發布，該系列模型在技術上有何突出亮點？_聽力學堂

阿里通義千問 Qwen3 系列模型正式發布，該系列模型在技術上有何突出亮點？

4 月 29 日凌晨，阿里巴巴發布新一代通義千問 Qwen3 模型，登頂全球最強開源模型。作為國內首個“混合推理模型”，它將“快思考”與“慢思考”集成于同一模型，大幅節省算力消耗。后訓練模型及預訓練基座模型已在多平臺開放使用。阿里云開源兩個 MoE 模型權重，分別是擁有 2350 多億總參數和 220 多億激活參數的 Qwen3-235B-A22B ，以及約 300 億總參數和 30 億激活參數的小型 MoE 模型 Qwen3-30B-A3B 。此外，還開源六個在 Apache 2.0 許可下的 Dense 模型。旗艦模型 Qwen3-235B-A22B 在代碼、數學、通用能力等基準測試中，與 DeepSeek-R1 等頂級模型相比極具競爭力；小型 MoE 模型 Qwen3-30B-A3B 激活參數少但表現更優，小模型 Qwen3-4B 性能也能匹敵 Qwen2.5-72B-Instruct 。

0 條評論
分類：熱點看法

默認排序時間排序

2 個回答

瀟灑劍客 2025-04-29 10:25

1、混合推理架構

Qwen3系列初次將“快思考”（非推理模式）與“慢思考”（推理模式）集成至單一模型，通過控制參數enable_thinking實現模式切換。用戶可通過文本后綴/no_think或/think動態調整響應策略，例如在簡單問答中優先速度，在復雜代碼生成或數學推理中啟用深度思考。這種設計使Qwen3-235B-A22B在基準測試中與DeepSeek-R1、Grok-3等模型表現相當，同時顯著降低算力消耗。

2、稀疏激活技術

MoE（Mixture-of-Experts）架構的引入使Qwen3實現參數效率的突破。例如，Qwen3-30B-A3B模型總參數約300億，但僅激活30億參數即可達到QwQ-32B（激活參數超300億）的性能水平，激活參數占比僅為10%。這種稀疏激活機制大幅減少計算資源占用，同時保持模型在STEM、編碼等領域的競爭力。

3、多階段預訓練與長上下文擴展

Qwen3的預訓練分為三階段：

階段一：基于30萬億token進行基礎語言技能訓練，上下文長度4K；

階段二：增加STEM、編程等知識密集型數據，擴展至35萬億token；

階段三：引入高質量長上下文數據，將上下文長度提升至32K（Dense模型）和128K（MoE模型）。

這種漸進式訓練策略使Qwen3-4B等小模型即可匹敵Qwen2.5-72B-Instruct的性能，同時支持超長文本處理。

4、四階段后訓練流程

后訓練流程涵蓋四個關鍵階段：

長思維鏈冷啟動：通過數學、代碼等長思維鏈數據微調，構建基礎推理能力；

長思維鏈強化學習：利用規則獎勵增強模型探索能力；

思維模式融合：將非思考模式整合至推理模型，實現快速響應與深度思考的無縫切換；

通用強化學習：在指令遵循、Agent能力等20余個領域優化模型表現。

該流程使Qwen3在ArenaHard人類偏好對齊測試中得分95.6，超越OpenAI-o1及DeepSeek-R1。

5、多語言與工具調用能力的增強

Qwen3支持119種語言及方言，覆蓋簡體中文、繁體中文、粵語等，并通過Qwen-Agent框架原生支持MCP協議，簡化工具調用流程。例如，在BFCL Agent能力評測中，Qwen3得分70.8，超越Gemini2.5-Pro等模型，顯著降低復雜任務實現門檻。

6、數據規模與質量的雙重提升

預訓練數據量達36萬億token，較Qwen2.5的18萬億token增長近一倍。數據來源包括網上數據爬取、PDF文檔解析（通過Qwen2.5-VL提取文本并優化質量）、數學/代碼數據合成（利用Qwen2.5-Math/Coder生成教材、問答對及代碼片段）。這種多模態數據構建策略為模型提供了跨領域的知識儲備。

7、靈活的部署與成本控制

Qwen3提供從0.6B到235B的參數規模選擇，滿足不同場景需求：

輕量化場景：Qwen3-4B適用于手機端部署；

邊緣計算：Qwen3-8B支持電腦及車載設備；

企業級應用：Qwen3-32B適配大規模推理任務。

例如，Qwen3-235B-A22B僅需4張H20顯卡即可部署，顯存占用為同性能模型的三分之一，顯著降低部署成本。

扶搖 2025-04-29 10:47

1、混合推理模型

Qwen3 是國內初次發布的“混合推理模型”，它把“快思考”和“慢思考”集成到一個模型里。面對復雜問題時，能像人一樣多步驟深入思考；遇到簡單問題，又能快速給出回答。這種設計既提升了模型的智能水平，還降低了算力消耗，挺實用的。

2、多種思考模式

Qwen3 支持兩種思考模式。一種是思考模式，模型會逐步推理，適合復雜問題；另一種是非思考模式，能快速響應，適合簡單問題。用戶能根據具體任務控制模型的思考程度，比如難題可以讓模型多推理幾步，簡單問題直接要答案，靈活性很高。

3、多語言支持

Qwen3 模型支持 119 種語言和方言，像簡體中文、繁體中文、粵語等都在其中。這個廣泛的多語言能力讓它在國際應用上潛力很大，能讓全球更多用戶用上這些模型。

4、預訓練數據量大

Qwen3 的預訓練數據集規模龐大，使用了約 36 萬億個 token，是上一代的兩倍。數據來源多樣，包括網上數據、PDF 文檔等，還通過一些優化方式提高數據質量。經過三個階段的預訓練，模型在處理長輸入、語言技能和通用知識方面更強了。

5、性能表現優異

從官方介紹來看，旗艦模型 Qwen3-235B-A22B 在代碼、數學、通用能力等基準測試中，和 DeepSeek-R1、o1 等模型相比，結果很有競爭力。而且小型 MoE 模型 Qwen3-30B-A3B 激活參數少，性能卻更好，小模型 Qwen3-4B 也能媲美一些更大模型。

6、開源多個模型

阿里云開源了兩個 MoE 模型權重，Qwen3-235B-A22B 和 Qwen3-30B-A3B，還開源了六個 Dense 模型，從 Qwen3-32B 到 Qwen3-0.6B 都有，均在 Apache 2.0 許可下開源。這降低了開發門檻，有利于推動技術發展和應用。

7、部署成本低

Qwen3 的部署成本大幅降低，僅需 4 張 H20 顯卡就能實現“滿血版”部署，顯存占用還小。對于部署，官方推薦了一些框架和工具，進一步簡化了部署流程。

0 關注
0 收藏，258 瀏覽
小猴子提出于 2025-04-29 10:12

美女视频很黄很a免费国产