Alibaba lanza el modelo de inteligencia artificial Qwen3-Next, más eficiente
Jinse Finance informó que Tongyi Qianwen, una subsidiaria de Alibaba, lanzó la arquitectura de modelo base de próxima generación Qwen3-Next y liberó como código abierto la serie de modelos Qwen3-Next-80B-A3B basada en esta arquitectura. En comparación con la estructura MoE del Qwen3, esta nueva estructura presenta las siguientes mejoras clave: mecanismo de atención híbrida, estructura MoE de alta dispersión, una serie de optimizaciones amigables para la estabilidad del entrenamiento y un mecanismo de predicción de múltiples tokens que mejora la eficiencia de inferencia. Basado en la estructura del modelo Qwen3-Next, Alibaba entrenó el modelo Qwen3-Next-80B-A3B-Base, que cuenta con 80 mil millones de parámetros, pero solo activa 3 mil millones de ellos. Este modelo Base logra un rendimiento similar o incluso ligeramente superior al modelo denso Qwen3-32B, mientras que su costo de entrenamiento (horas de GPU) es menos de una décima parte del Qwen3-32B, y su rendimiento de inferencia en contextos superiores a 32k es más de diez veces mayor que el del Qwen3-32B, logrando así una relación costo-beneficio extrema tanto en entrenamiento como en inferencia.
Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.
También te puede gustar
Galaxy Digital compró nuevamente 706,790 SOL por un valor de 160 millones de dólares
En tendencia
MásPrecios de las criptos
Más








