Itinai.com it company office background blured chaos 50 v f378d3ad c2b0 49d4 9da1 2afba66e1248 0

Alibaba Qwen: Новые FP8 Модели Qwen3-Next-80B для Эффективного Инерционного Обработки

Itinai.com it company office background blured chaos 50 v f378d3ad c2b0 49d4 9da1 2afba66e1248 0


Alibaba Qwen Team Выпускает FP8 Построения Qwen3-Next-80B-A3B (Instruct & Thinking)

Недавно команда Alibaba Qwen представила FP8-версию своих новых моделей Qwen3-Next-80B-A3B в двух пост-тренировочных вариантах — Instruct и Thinking. Эти модели созданы для высокопроизводительного вывода с поддержкой ультра-длинного контекста и эффективностью Mixture-of-Experts (MoE). FP8-репозитории отражают версии BF16, но предлагают «тонко настроенные FP8» веса и примечания по развертыванию для sglang и vLLM. Важным моментом является то, что FP8 предлагается для удобства и производительности, а не как отдельная оценка.

Что такое A3B Стек?

Модель Qwen3-Next-80B-A3B представляет собой гибридную архитектуру, которая сочетает Gated DeltaNet с Gated Attention и ультра-редким MoE. Общий бюджет параметров составляет 80 миллиардов, при этом активируется примерно 3 миллиарда параметров на токен через 512 экспертов. Модель состоит из 48 слоев, организованных в 12 блоков. Эта структура делает ее эффективной для работы с большими объемами данных и сложными задачами.

Практическое Применение FP8

Использование FP8 имеет большое значение для современных ускорителей. Это позволяет уменьшить давление на пропускную способность памяти и занимаемое пространство, что дает возможность использовать более крупные пакеты или более длинные последовательности при схожей задержке. В условиях работы с длинными контекстами комбинация FP8 и MoE значительно увеличивает скорость обработки данных. Например, при маршрутизации всего около 3 миллиардов параметров на токен, можно достичь значительных показателей производительности.

Преимущества и достоинства Qwen3-Next-80B-A3B

  • Высокая производительность: Модель показывает около 10-кратного ускорения вывода по сравнению с предыдущими версиями.
  • Эффективность использования ресурсов: FP8 версии снижают требования к памяти, делая работу более экономной.
  • Гибкость: Поддержка различных режимов работы (Instruct и Thinking) позволяет легко адаптироваться к различным задачам.

Часто Задаваемые Вопросы (FAQ)

1. Каковы основные преимущества FP8 по сравнению с BF16?

FP8 снижает требования к пропускной способности памяти и позволяет обрабатывать больший объем данных с меньшими затратами ресурсов.

2. Как развернуть модели Qwen3-Next-80B-A3B?

Необходимо использовать актуальные версии sglang и vLLM, а также соблюдать указания по настройкам, указанным в документации.

3. Какова оптимальная среда для работы с Qwen3-Next-80B-A3B?

Рекомендуется использовать современные графические процессоры, поддерживающие FP8, для максимального повышения эффективности работы.

4. Какие ошибки стоит избегать при развертывании моделей?

Убедитесь, что вы используете совместимые версии библиотек и внимательно следуйте инструкциям по настройкам.

5. Как обеспечить высокую точность при использовании FP8?

Тщательно тестируйте модели в вашей рабочей среде, чтобы убедиться, что они показывают ожидаемую производительность и точность.

6. Как использовать MTP (multi-token prediction) для оптимизации вывода?

MTP может быть активирован в настройках развертывания для ускорения обработки и повышения качества вывода. Это особенно полезно в условиях работы с длинными контекстами.

Заключение

Выпуски FP8 от Qwen делают использование 80B/3B-активного A3B стека практичным для работы с 256K контекстом на современных движках. Сохранение гибридного дизайна MoE и пути MTP обеспечивают высокую производительность без архитектурных регрессий. Теперь команды могут смело адаптировать эту технологию для решения своих задач, улучшая производительность и эффективность в долгосрочной перспективе.


Запустите свой ИИ проект бесплатно

ИИ-агенты искусственный интеллект онлайн для бизнеса

Лучший ИИ онлайн