Alibaba lance un modèle d'intelligence artificielle Qwen3-Next plus performant
Selon un rapport de Jinse Finance, Tongyi Qianwen, filiale d'Alibaba, a publié la nouvelle architecture de modèle de base Qwen3-Next et a open-sourcé la série de modèles Qwen3-Next-80B-A3B basée sur cette architecture. Par rapport à la structure MoE du Qwen3, cette nouvelle architecture apporte les améliorations clés suivantes : un mécanisme d'attention hybride, une structure MoE à haute sparsité, une série d'optimisations favorisant la stabilité de l'entraînement, ainsi qu'un mécanisme de prédiction multi-token améliorant l'efficacité de l'inférence. Basé sur la structure du modèle Qwen3-Next, Alibaba a entraîné le modèle Qwen3-Next-80B-A3B-Base, qui possède 80 milliards de paramètres tout en n'activant que 3 milliards de paramètres. Ce modèle de base atteint des performances similaires, voire légèrement supérieures, à celles du modèle dense Qwen3-32B, tout en nécessitant moins d'un dixième du coût d'entraînement (en heures GPU) du Qwen3-32B. De plus, pour des contextes supérieurs à 32k, le débit d'inférence est plus de dix fois supérieur à celui du Qwen3-32B, réalisant ainsi un rapport coût-efficacité optimal pour l'entraînement et l'inférence.
Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.
Vous pourriez également aimer
Une adresse a vendu 57,38 WBTC on-chain, pour environ 6,517 millions de dollars.
Galaxy Digital achète de nouveau 706 790 SOL, d'une valeur de 160 millions de dollars.
En vogue
PlusPrix des cryptos
Plus








