Институт Аллена по ИИ выпустил Tülu 3 405B: улучшение открытых весов с помощью обучения с подкреплением для достижения лучших результатов, чем DeepSeek V3 и GPT-4o.

 The Allen Institute for AI (AI2) Releases Tülu 3 405B: Scaling Open-Weight Post-Training with Reinforcement Learning from Verifiable Rewards (RLVR) to Surpass DeepSeek V3 and GPT-4o in Key Benchmarks

“`html

Технологии постобучения для языковых моделей

Техники постобучения, такие как настройка инструкций и обучение с подкреплением на основе человеческой обратной связи, стали важными для улучшения языковых моделей. Однако открытые решения часто отстают от закрытых моделей из-за недостатка прозрачности в данных и методах обучения.

Проблемы открытых моделей

Несмотря на наличие базовых моделей, отсутствие надежных открытых рецептов постобучения создает разрыв в производительности между открытыми и закрытыми моделями. Ранее открытые проекты, такие как Tülu 2 и Zephyr-β, пытались улучшить методы постобучения, но сталкивались с ограничениями.

Прорыв с Tülu 3

В сотрудничестве с Университетом Вашингтона команда Allen Institute for AI (AI2) представила Tülu 3, который стал прорывом в области открытых моделей. Tülu 3 основан на модели Llama 3.1 и включает множество улучшений для эффективного масштабирования.

Новые достижения Tülu 3 405B

Модель Tülu 3 405B стала первой открытой моделью, успешно применившей полностью открытый рецепт постобучения на уровне 405 миллиардов параметров. Она использует новый подход обучения с подкреплением, известный как RLVR, который значительно улучшает производительность в специализированных задачах.

Этапы постобучения Tülu 3

Рецепт постобучения Tülu 3 включает четыре этапа:

  1. Курация и синтез данных.
  2. Супервизированная донастройка (SFT).
  3. Оптимизация предпочтений (DPO).
  4. Введение RLVR для улучшения специализированных навыков.

Результаты и преимущества

Tülu 3 405B продемонстрировала конкурентоспособную или превосходящую производительность по сравнению с другими моделями, такими как DeepSeek V3 и GPT-4o. Модель показала значительное улучшение в задачах, связанных с математикой и безопасностью.

Ключевые выводы

  • Tülu 3 была выпущена в нескольких конфигурациях параметров: 8B, 70B и 405B.
  • Обучение Tülu 3 405B требовало 256 GPU и занимало значительное время.
  • Модель превзошла DeepSeek V3 и GPT-4o в различных тестах безопасности и логики.
  • Специализированные наборы данных, такие как MATH, обеспечивают лучшие результаты для больших моделей.

Заключение

Эволюция техник постобучения подчеркивает разрыв в производительности между открытыми и закрытыми моделями. Введение Tülu 3 405B стало важным шагом к масштабированию открытых техник постобучения, демонстрируя конкурентоспособную производительность.

Как ИИ может помочь вашей компании

Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, следуйте этим шагам:

  1. Анализируйте, как ИИ может изменить вашу работу.
  2. Определите ключевые показатели эффективности (KPI), которые хотите улучшить с помощью ИИ.
  3. Выберите подходящее решение и внедряйте ИИ постепенно.
  4. На основе полученных данных расширяйте автоматизацию.

Получите помощь и советы

Если вам нужны советы по внедрению ИИ, пишите нам в Telegram. Следите за новостями о ИИ в нашем канале или в Twitter.

Попробуйте AI Sales Bot, который помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab. Будущее уже здесь!

“`

Полезные ссылки: