Bitget App
Trade smarter
Acheter des cryptosMarchésTradingFuturesEarnWeb3CommunautéPlus
Trading
Spot
Achat et vente de cryptos
Marge
Amplifiez et maximisez l'efficacité de vos fonds
Onchain
Tradez Onchain sans aller on-chain
Convert & Block Trade
Trades volumineux – Convertissez des cryptos en un clic et sans frais
Explorer
Launchhub
Prenez l'avantage dès le début et commencez à gagner
Copier
Copiez des traders experts en un clic
Bots
Bots de trading IA simples, rapides et fiables
Trading
Futures USDT-M
Futures réglés en USDT
Futures USDC-M
Futures réglés en USDC
Futures Coin-M
Futures réglés en cryptomonnaies
Explorer
Guide des Futures
Le parcours de trading de Futures, du débutant à l'expert
Événements Futures
Profitez de généreuses récompenses
Bitget Earn
Une variété de produits pour faire fructifier vos actifs
Simple Earn
Déposez et retirez à tout moment, rendements flexibles sans risque
On-chain Earn
Réalisez des profits quotidiens sans risquer votre capital
Structured Earn
Une innovation financière solide pour gérer les fluctuations du marché
VIP et Gestion de patrimoine
Des services premium pour une gestion de patrimoine intelligente
Prêt Crypto
Emprunts flexibles avec un haut niveau de sécurité des fonds
Alibaba lance un modèle d'intelligence artificielle Qwen3-Next plus performant

Alibaba lance un modèle d'intelligence artificielle Qwen3-Next plus performant

金色财经金色财经2025/09/11 22:32
Afficher le texte d'origine

Selon un rapport de Jinse Finance, Tongyi Qianwen, filiale d'Alibaba, a publié la nouvelle architecture de modèle de base Qwen3-Next et a open-sourcé la série de modèles Qwen3-Next-80B-A3B basée sur cette architecture. Par rapport à la structure MoE du Qwen3, cette nouvelle architecture apporte les améliorations clés suivantes : un mécanisme d'attention hybride, une structure MoE à haute sparsité, une série d'optimisations favorisant la stabilité de l'entraînement, ainsi qu'un mécanisme de prédiction multi-token améliorant l'efficacité de l'inférence. Basé sur la structure du modèle Qwen3-Next, Alibaba a entraîné le modèle Qwen3-Next-80B-A3B-Base, qui possède 80 milliards de paramètres tout en n'activant que 3 milliards de paramètres. Ce modèle de base atteint des performances similaires, voire légèrement supérieures, à celles du modèle dense Qwen3-32B, tout en nécessitant moins d'un dixième du coût d'entraînement (en heures GPU) du Qwen3-32B. De plus, pour des contextes supérieurs à 32k, le débit d'inférence est plus de dix fois supérieur à celui du Qwen3-32B, réalisant ainsi un rapport coût-efficacité optimal pour l'entraînement et l'inférence.

0

Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.

PoolX : Bloquez vos actifs pour gagner de nouveaux tokens
Jusqu'à 12% d'APR. Gagnez plus d'airdrops en bloquant davantage.
Bloquez maintenant !