Alibaba stellt das effizientere Qwen3-Next KI-Modell vor
Jinse Finance berichtet, dass Tongyi Qianwen, eine Tochtergesellschaft von Alibaba, die nächste Generation der Basismodell-Architektur Qwen3-Next veröffentlicht und die darauf basierenden Qwen3-Next-80B-A3B-Modelle als Open Source bereitgestellt hat. Im Vergleich zur MoE-Modellarchitektur von Qwen3 wurden folgende Kernverbesserungen vorgenommen: ein hybrider Aufmerksamkeitsmechanismus, eine hochgradig sparsame MoE-Struktur, eine Reihe von optimierungsfreundlichen Trainingsmethoden für mehr Stabilität sowie ein Multi-Token-Vorhersagemechanismus zur Steigerung der Inferenz-Effizienz. Basierend auf der Qwen3-Next-Modellarchitektur hat Alibaba das Qwen3-Next-80B-A3B-Base-Modell trainiert, das über 80 Milliarden Parameter verfügt, von denen nur 3 Milliarden aktiviert werden. Dieses Basismodell erreicht eine vergleichbare oder sogar leicht bessere Leistung als das dichte Qwen3-32B-Modell, während die Trainingskosten (GPU-Stunden) weniger als ein Zehntel des Qwen3-32B betragen. Bei einer Kontextlänge von über 32k ist der Inferenzdurchsatz mehr als zehnmal so hoch wie beim Qwen3-32B, was ein außergewöhnliches Verhältnis von Trainings- und Inferenzkosten ermöglicht.
Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.
Das könnte Ihnen auch gefallen
Galaxy Digital kauft erneut 706.790 SOL im Wert von 160 Millionen US-Dollar.
Im Trend
MehrKrypto-Preise
Mehr








