Bitget App
Giao dịch thông minh hơn
Mua CryptoThị trườngGiao dịchFutures‌EarnWeb3Quảng trườngThêm
Giao dịch
Spot
Mua bán tiền điện tử
Ký quỹ
Gia tăng vốn và tối ưu hiệu quả đầu tư
Onchain
Tương tác on-chain dễ dàng với Onchain
Convert & GD khối lượng lớn
Chuyển đổi tiền điện tử chỉ với một nhấp chuột và không mất phí
Khám phá
Launchhub
Giành lợi thế sớm và bắt đầu kiếm lợi nhuận
Sao chép
Sao chép elite trader chỉ với một nhấp
Bots
Bot giao dịch AI đơn giản, nhanh chóng và đáng tin cậy
Giao dịch
USDT-M Futures
Futures thanh toán bằng USDT
USDC-M Futures
Futures thanh toán bằng USDC
Coin-M Futures
Futures thanh toán bằng tiền điện tử
Khám phá
Hướng dẫn futures
Hành trình giao dịch futures từ người mới đến chuyên gia
Chương trình ưu đãi futures
Vô vàn phần thưởng đang chờ đón
Bitget Earn
Sản phẩm kiếm tiền dễ dàng
Simple Earn
Nạp và rút tiền bất cứ lúc nào để kiếm lợi nhuận linh hoạt không rủi ro
On-chain Earn
Kiếm lợi nhuận mỗi ngày và được đảm bảo vốn
Structured Earn
Đổi mới tài chính mạnh mẽ để vượt qua biến động thị trường
Quản lý Tài sản và VIP
Dịch vụ cao cấp cho quản lý tài sản thông minh
Vay
Vay linh hoạt với mức độ an toàn vốn cao
Alibaba ra mắt mô hình trí tuệ nhân tạo Qwen3-Next hiệu quả hơn

Alibaba ra mắt mô hình trí tuệ nhân tạo Qwen3-Next hiệu quả hơn

金色财经金色财经2025/09/11 22:32
Hiển thị bản gốc

Jinse Finance đưa tin, Tongyi Qianwen thuộc Alibaba đã phát hành kiến trúc mô hình nền tảng thế hệ tiếp theo Qwen3-Next, đồng thời mã nguồn mở loạt mô hình Qwen3-Next-80B-A3B dựa trên kiến trúc này. So với cấu trúc mô hình MoE của Qwen3, kiến trúc mới đã thực hiện các cải tiến cốt lõi sau: cơ chế chú ý hỗn hợp, cấu trúc MoE có độ thưa cao, một loạt các tối ưu hóa thân thiện với sự ổn định khi huấn luyện, cũng như cơ chế dự đoán nhiều token giúp nâng cao hiệu suất suy luận. Dựa trên cấu trúc mô hình Qwen3-Next, Alibaba đã huấn luyện mô hình Qwen3-Next-80B-A3B-Base, mô hình này có 80 tỷ tham số nhưng chỉ kích hoạt 3 tỷ tham số. Mô hình Base này đạt hiệu suất tương đương hoặc thậm chí tốt hơn một chút so với mô hình dense Qwen3-32B, trong khi chi phí huấn luyện (giờ GPU) chỉ bằng chưa đến một phần mười của Qwen3-32B, và thông lượng suy luận trong ngữ cảnh trên 32k cao hơn gấp mười lần so với Qwen3-32B, đạt được hiệu quả tối ưu về chi phí huấn luyện và suy luận.

0

Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.

PoolX: Khóa để nhận token mới.
APR lên đến 12%. Luôn hoạt động, luôn nhận airdrop.
Khóa ngay!