Гибридная модель M1: Превосходство в логическом мышлении и скорость в 3 раза выше трансформеров

Нужны ли трансформеры для моделей рассуждений?

Исследователи из TogetherAI, Корнельского университета, Университета Женевы и Принстонского университета представляют M1 — гибридную модель ИИ на основе Mamba, которая достигает производительности на уровне современных технологий при скорости вывода в 3 раза выше.

Проблемы трансформеров

Эффективное рассуждение имеет решающее значение для решения сложных задач в таких областях, как математика и программирование. Однако модели на основе трансформеров сталкиваются с ограничениями из-за квадратичной вычислительной сложности и линейных требований к памяти, что затрудняет обработку длинных последовательностей. Хотя методы, такие как рассуждение в длинной цепочке (CoT) и адаптивное распределение вычислений, помогли повысить производительность моделей, они также увеличивают вычислительные затраты.

Решения для повышения эффективности

Для решения этих проблем исследуются альтернативы архитектуре трансформеров, включая модели на основе RNN, модели пространственного состояния (SSM) и механизмы линейного внимания. Гибридные модели, объединяющие самовнимание с подквадратными слоями, также были разработаны для улучшения масштабируемости во время вывода. Кроме того, техники дистилляции знаний, которые передают способности от больших моделей к меньшим, показывают многообещающие результаты в поддержании производительности рассуждений при уменьшении размера модели.

Модель M1

M1 — это гибридная модель линейного RNN, построенная на архитектуре Mamba, которая улучшает память и эффективность вывода. Она обучается с использованием комбинации дистилляции, контролируемой дообучения и обучения с подкреплением. Экспериментальные результаты показывают, что M1 превосходит предыдущие линейные RNN модели и достигает производительности, сопоставимой с дистиллированными трансформерами DeepSeek R1.

AI Model M1

Процесс разработки M1

Модель M1 создается в три этапа: дистилляция, SFT и RL. Сначала предобученная модель трансформера дистиллируется в архитектуру Mamba, затем модель дообучается на наборах данных по математическим задачам, и, наконец, применяется обучение с подкреплением для улучшения способности к рассуждению.

Заключение

M1 предлагает более чем в 3 раза более быструю обработку вывода по сравнению с аналогичными трансформерами, особенно при больших объемах данных. Она превосходит линейные RNN модели и достигает результатов на уровне DeepSeek R1 на таких тестах, как AIME и MATH, демонстрируя высокую точность в условиях фиксированных временных бюджетов.

Практические бизнес-решения

Изучите, как технологии искусственного интеллекта могут изменить ваш подход к работе:

  • Идентифицируйте процессы, которые можно автоматизировать, и моменты взаимодействия с клиентами, где ИИ может добавить наибольшую ценность.
  • Определите важные KPI, чтобы убедиться, что ваши инвестиции в ИИ действительно приносят положительный эффект для бизнеса.
  • Выберите инструменты, которые соответствуют вашим потребностям и позволяют настраивать их под ваши цели.
  • Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе.

Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подписывайтесь на наш Telegram.

Пример решения на основе ИИ

Посмотрите на практический пример решения на основе ИИ: бот для продаж от itinai.ru/aisales, который предназначен для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.

Новости в сфере искусственного интеллекта