亚洲一级免费观看_五十路熟女丰满大屁股_国产高清精品软男同_日本久久久精品视频_中文字幕色呦呦_欧美精品久久96人妻无码_亚洲一二区在线观看_少妇高清精品毛片在线视频_黄色影视在线观看_eeuss中文_午夜探花在线观看_日韩精品在线视频免费观看

登錄
首頁 > 智駕游記 > 全新MoE架構!阿里開源Qwen3-Next,訓練成本直降9成

全新MoE架構!阿里開源Qwen3-Next,訓練成本直降9成

發布時間:2025-09-13 12:22:00
訓練、推理性價比創新高。

大語言模型(LLM),正在進入 Next Level。

周五凌晨,阿里通義團隊正式發布、開源了下一代基礎模型架構 Qwen3-Next。總參數 80B 的模型僅激活 3B ,性能就可媲美千問 3 旗艦版 235B 模型,也超越了 Gemini-2.5-Flash-Thinking,實現了模型計算效率的重大突破。

新模型立即在 Qwen.ai 上線,并上傳了 HuggingFace。

  • 新模型網頁版:https://chat.qwen.ai/
  • HuggingFace:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
  • Kaggle:https://www.kaggle.com/models/qwen-lm/qwen3-next-80b

Qwen3-Next 針對大模型在上下文長度擴展(Context Length Scaling)和參數量擴展(Total Parameter Scaling)的未來趨勢而設計。通義團隊表示,其模型結構相較 4 月底推出的 Qwen3 的 MoE 模型新增了多種技術并進行了核心改進,包括混合注意力機制、高稀疏度 MoE 結構、一系列提升訓練穩定性的優化,以及提升推理效率的多 token 預測(MTP)機制等。

模型結構示意圖:

通義團隊介紹了新架構使用的一些機制。

  • 混合架構:Gated DeltaNet + Gated Attention

線性注意力打破了標準注意力的二次復雜度,在處理長上下文時有著更高的效率。通義團隊發現,單純使用線性注意力或標準注意力均存在局限:前者在長序列建模上效率高但召回能力弱,后者計算開銷大、推理不友好。

通過系統實驗,人們發現 Gated DeltaNet 相比常用的滑動窗口注意力(Sliding Window Attention)和 Mamba2 有更強的上下文學習(in-context learning)能力,并在 3:1 的混合比例(即 75% 層使用 Gated DeltaNet,25% 層保留標準注意力)下能一致超過超越單一架構,實現性能與效率的雙重優化。

在保留的標準注意力中,通義進一步引入多項增強設計:

(1)沿用先前工作中的輸出門控機制,緩解注意力中的低秩問題;

(2)將單個注意力頭維度從 128 擴展至 256;

(3)僅對注意力頭前 25% 的位置維度添加旋轉位置編碼,提高長度外推效果。

  • 極致稀疏 MoE:僅激活 3.7% 參數

Qwen3-Next 采用了高稀疏度的 Mixture-of-Experts (MoE) 架構,總參數量達 80B,每次推理僅激活約 3B 參數。實驗表明,在使用全局負載均衡后,當激活專家固定時,持續增加專家總參數可帶來訓練 loss 的穩定下降。

相比 Qwen3 MoE 的 128 個總專家和 8 個路由專家,Qwen3-Next 擴展到了 512 總專家,10 路由專家與 1 共享專家的組合,在不犧牲效果的前提下最大化資源利用率。

  • 訓練穩定性友好設計

通義團隊發現, 注意力輸出門控機制能消除注意力池與極大激活等現象,保證模型各部分的數值穩定。Qwen3 采用了 QK-Norm,部分層的 norm weight 值會出現異常高的情況。為緩解這一現象,進一步提高模型的穩定性,通義在 Qwen3-Next 中采用了 Zero-Centered RMSNorm,并在此基礎上對 norm weight 施加 weight decay,以避免權重無界增長。

通義還在初始化時歸一化了 MoE router 的參數,確保每個 expert 在訓練早期都能被無偏地選中,減小初始化對實驗結果的擾動。

  • Multi-Token Prediction

Qwen3-Next 引入原生 Multi-Token Prediction (MTP) 機制,既得到了 Speculative Decoding 接受率較高的 MTP 模塊,又提升了主干本身的綜合性能。Qwen3-Next 還特別優化了 MTP 多步推理性能,通過訓練推理一致的多步訓練,進一步提高了實用場景下的 Speculative Decoding 接受率。

通義千問大模型負責人林俊旸在 X 上分享了新一代模型開發的細節。他表示團隊已經在混合模型和線性注意力機制上進行了大約一年的實驗。新的解決方案應該足夠穩定可靠,能夠應對超長上下文。

Gated DeltaNet 加混合是經過大量嘗試和錯誤才實現的,而 Gated Attention 的實現就像是免費的午餐,可以獲得額外好處。

得益于創新的混合模型架構,Qwen3-Next 在推理效率方面表現出顯著優勢。與 Qwen3-32B 相比,Qwen3-Next-80B-A3B 在預填充(prefill)階段展現出卓越的吞吐能力:在 4k tokens 的上下文長度下,吞吐量接近前者的七倍;當上下文長度超過 32k 時,吞吐提升更是達到十倍以上。

在解碼(decode)階段,該模型同樣表現優異 —— 在 4k 上下文下實現近四倍的吞吐提升,而在超過 32k 的長上下文場景中,仍能保持十倍以上的吞吐優勢。

基于 Qwen3-Next 的模型結構,通義團隊訓練了 Qwen3-Next-80B-A3B-Base 模型,該模型擁有 800 億參數(僅激活 30 億參數),實現了與 Qwen3-32B dense 模型相近甚至略好的性能,同時訓練成本(GPU hours) 僅為 Qwen3-32B 的十分之一不到,在 32k 以上的上下文下的推理吞吐則是 Qwen3-32B 的十倍以上,實現了極致的訓練和推理性價比。

通義團隊開源了 Qwen3-Next-80B-A3B 的指令(Insctruct)模型和推理(Thinking)兩款模型。新模型解決了混合注意力機制 + 高稀疏度 MoE 架構在強化學習訓練中長期存在的穩定性與效率難題,實現了 RL 訓練效率與最終效果的雙重提升。

在編程(LiveCodeBench v6)、人類偏好對齊 (Arena-Hard v2) 以及綜合性能力 (LiveBench) 評測中,Qwen3-Next-Instruct 表現甚至超過了千問的開源旗艦模型,并在包含通用知識(SuperGPQA)、數學推理(AIME25)等核心測評中全面超越了 SOTA 密集模型 Qwen3-32B;Qwen3-Next-Thinking 則全面超越了 Gemini2.5-Flash-Thinking,在數學推理 AIME25 評測中獲得了 87.8 分。而達到如此高水平的模型性能,僅需激活 Qwen3-Next 總參數 80B 中的 3B。

目前,Qwen3-Next 模型也已經在很多第三方平臺中上線。

使用新模型在 anycoder 中的 vibe coding 示例:

Copyright 2017-2025 新車測評網 版權所有  ICP備18049689號-30
亚洲一级免费观看_五十路熟女丰满大屁股_国产高清精品软男同_日本久久久精品视频_中文字幕色呦呦_欧美精品久久96人妻无码_亚洲一二区在线观看_少妇高清精品毛片在线视频_黄色影视在线观看_eeuss中文_午夜探花在线观看_日韩精品在线视频免费观看
亚洲美女性囗交| 善良的小姨在线| 天堂网成人在线| 欧美激情精品久久久久久小说| 国产主播在线看| 日韩a在线播放| 丁香六月激情婷婷| 成人中文字幕在线播放| 中文字幕 91| 国产一区二区三区在线免费| 极品粉嫩国产18尤物| 女人床在线观看| 韩国一区二区av| 国产资源中文字幕| 日本77777| 黄色国产精品视频| 成人黄色av片| 中文字幕剧情在线观看| 欧美成年人视频在线观看| 一区二区xxx| 国产自产在线视频| 久久久性生活视频| 国产精品无码一区二区在线| 日韩中文字幕三区| 男女爱爱视频网站| 亚洲成人福利在线观看| 日韩亚洲欧美一区二区| 伊人再见免费在线观看高清版 | 男人的天堂99| 99久久久无码国产精品6| 久久久噜噜噜www成人网| 动漫av网站免费观看| 日韩视频在线免费看| 日本在线观看免费视频| 午夜激情视频网| 青青青在线观看视频| 乱妇乱女熟妇熟女网站| aaa毛片在线观看| 在线观看国产一级片| japanese在线视频| 欧美婷婷精品激情| 亚洲男人天堂2021| 日韩黄色片在线| 青春草在线视频免费观看| 亚洲黄色a v| 国内自拍第二页| 久久亚洲a v| 日韩在线一级片| 日本中文字幕影院| 午夜免费福利在线| 日本77777| 免费在线观看视频a| 999精品网站| 免费在线观看污污视频| 国产3p露脸普通话对白| 免费看国产黄色片| 粉嫩av一区二区三区天美传媒| 看av免费毛片手机播放| 午夜一级免费视频| 日日摸日日碰夜夜爽无码| 色乱码一区二区三区在线| 中文字幕色呦呦| 大肉大捧一进一出好爽动态图| 在线看免费毛片| 欧美成人免费在线观看视频| 亚洲综合欧美在线| 欧美一级片免费播放| 日韩一级免费片| 免费超爽大片黄| 久久久久xxxx| 国产二级片在线观看| 日本中文字幕二区| 国产又黄又大又粗视频| 国产探花在线观看视频| 日本三级免费观看| 久久久99精品视频| 一道本在线免费视频| 五十路熟女丰满大屁股| 日韩欧美中文视频| 国产极品美女高潮无套久久久| 特色特色大片在线| 午夜国产一区二区三区| 国产二区视频在线| 国产探花在线观看视频| 农村妇女精品一二区| 成人一级生活片| 午夜免费一级片| 日本精品久久久久中文字幕| 996这里只有精品| 欧美日韩久久婷婷| 国产精品乱码久久久久| 欧美精品久久久久久久自慰| 欧美国产日韩在线视频| 国产一线二线三线在线观看| 性欧美大战久久久久久久| 国产系列第一页| 鲁一鲁一鲁一鲁一av| 久久久999免费视频| 蜜臀av性久久久久蜜臀av| 亚洲欧美自拍另类日韩| 99999精品视频| 日韩日韩日韩日韩日韩| 狠狠干视频网站| 99久久激情视频| 国产精品网站免费| 成人免费a级片| 小泽玛利亚av在线| 日本在线视频www色| 日韩av加勒比| 91精品999| gai在线观看免费高清| 91在线视频观看免费| 久草青青在线观看| 美女福利视频在线| 中文字幕无码精品亚洲35| 东北少妇不带套对白| 国产又粗又大又爽的视频| 91欧美一区二区三区| 在线观看日本www| 永久免费黄色片| 亚洲欧美天堂在线| 91激情视频在线| 91激情视频在线| 小泽玛利亚视频在线观看| 性欧美videossex精品| 好男人www社区| 中文字幕第36页| 亚洲精品久久久中文字幕| 天天爽天天爽夜夜爽| 黄色手机在线视频| 国产永久免费网站| 一本二本三本亚洲码| 中文字幕色呦呦| 国产中文字幕乱人伦在线观看| 亚洲色成人www永久在线观看 | 亚洲欧美日韩网站| 国产日韩第一页| a级黄色小视频| 国产成人a亚洲精v品无码| 粉嫩虎白女毛片人体| 亚洲免费一级视频| 国产黑丝在线视频| 日韩视频 中文字幕| 欧美成人三级在线视频| 欧美黄色一级片视频| 国产又大又黄又猛| 精品国产鲁一鲁一区二区三区| 2021狠狠干| 国产av天堂无码一区二区三区| 国内外成人免费激情视频| 欧美精品成人网| 国产高清av片| 丁香花在线影院观看在线播放| 国产免费毛卡片| 中文字幕第100页| 国产人妻互换一区二区| 国产极品尤物在线| 四季av一区二区| 国产欧美自拍视频| 日韩国产欧美亚洲| 日韩中文字幕a| 成人在线观看毛片| 免费大片在线观看| 黄色a级在线观看| 免费在线a视频| 亚洲第一成肉网| 亚洲熟妇国产熟妇肥婆| www.激情小说.com| 国产精品第157页| 黑鬼大战白妞高潮喷白浆| 99视频在线观看视频| 玩弄中年熟妇正在播放| 污视频网址在线观看| 国产精品www在线观看| 中文字幕在线综合| 日韩欧美国产综合在线| 99中文字幕在线| www.亚洲天堂网| 日韩中文字幕在线不卡| 午夜免费精品视频| 欧美亚洲黄色片| 玖玖爱视频在线| 国产原创中文在线观看| 毛片毛片毛片毛| 久久久999免费视频| 国产精品中文久久久久久| www黄色日本| 中文字幕av久久| 亚洲第一狼人区| 少妇无码av无码专区在线观看| 欧美视频亚洲图片| 午夜免费精品视频| 男人的天堂狠狠干| 国产大尺度在线观看| 中文字幕一区二区三区四区在线视频| avav在线播放| 在线播放 亚洲| 国产av人人夜夜澡人人爽| 精品少妇在线视频| 九九久久九九久久|