DeepSeek выпускает модель Prover-V2 с 671 миллиардом параметр ов
Сегодня компания DeepSeek представила новую модель под названием DeepSeek-Prover-V2-671B в сообществе разработчиков искусственного интеллекта с открытым исходным кодом Hugging Face. Сообщается, что DeepSeek-Prover-V2-671B использует более эффективный формат файла safetensors и поддерживает несколько уровней точности вычислений, что способствует более быстрому и ресурсосберегающему обучению и развертыванию моделей. Она содержит 671 миллиард параметров и может представлять собой усовершенствованную версию математической модели Prover-V1.5, выпущенной в прошлом году. С точки зрения архитектуры модели, модель использует архитектуру DeepSeek-V3, принимает режим MoE (смешанный экспертный режим), имеет 61 слой Transformer и 7168-мерных скрытых слоев. Он также поддерживает сверхдлинные контексты с максимальным вложением позиций 163 800, что позволяет обрабатывать сложные математические доказательства. Он также использует квантование FP8, которое позволяет уменьшить размер модели и повысить эффективность рассуждений за счет технологии квантования. (Золотая десятка)
Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.
Вам также может понравиться
Объявление спотовой маржи Bitget о приостановлении услуг маржинальной торговли DOG/USDT, ORDER/USDT, BSV/USDT, STETH/USDT
Рождественский и новогодний карнавал для держателей BGB: купите 1 BGB и выиграйте до 2,026 BGB!
Bitget Trading Club Championship (этап 20) — до 2,400 BGB на пользователя, а также RHEA и Mystery Box
Объявление спотовой маржи Bitget о приостановлении услуг маржинальной торговли ICNT/USDT, PROMPT/USDT, CAMP/USDT, FARTCOIN/USDT, PEAQ/USDT