Шанхайская лаборатория ИИ представила OREAL-7B и OREAL-32B: новые достижения в математическом reasoning с использованием обучения с подкреплением на основе вознаграждений.

 Shanghai AI Lab Releases OREAL-7B and OREAL-32B: Advancing Mathematical Reasoning with Outcome Reward-Based Reinforcement Learning

“`html

Искусственный интеллект в математическом мышлении

Математическое мышление — это сложная область для искусственного интеллекта (ИИ) из-за необходимости логического и структурированного подхода к решению задач. Хотя большие языковые модели (LLM) достигли значительного прогресса, они часто испытывают трудности с многопроцессными задачами. Новая разработка лаборатории ИИ в Шанхае — OREAL, основанная на вознаграждении, предлагает решения для этих проблем.

Что такое OREAL?

OREAL включает в себя модели OREAL-7B и OREAL-32B, которые предназначены для ситуаций с бинарными наградами — правильный или неправильный ответ. Эта система использует:

  • Выбор лучших решений (Best-of-N sampling): помогает выбирать оптимальные пути решения, что позволяет модели учиться на правильных примерах.
  • Корректировка негативных наград: улучшает согласованность градиентов между правильными и неправильными ответами.
  • Модель наград на уровне токенов: позволяет учитывать важные шаги логического рассуждения.
  • Обучение с учетом текущих данных: модель динамически улучшает себя на основе выборок запросов.

Преимущества OREAL

Модели OREAL показывают, что даже более мелкие модели могут показывать конкурентоспособные результаты:

  • OREAL-7B достигает 94.0% на тесте MATH-500.
  • OREAL-32B устанавливает новый рекорд с 95.0% на том же тесте.
  • Модели превосходят множество других решений, демонстрируя высокую обобщающую способность.

Заключение

Модели OREAL-7B и OREAL-32B предлагают новый подход к обучению ИИ в области математического мышления, эффективно справляясь с ограниченными данными. Эти решения могут значительно улучшить возможности ИИ в решении сложных задач.

Как внедрить ИИ в ваш бизнес?

Если вы хотите развивать свою компанию с помощью ИИ, рассмотрите следующие шаги:

  • Анализируйте, как ИИ может изменить вашу работу.
  • Определите ключевые показатели эффективности (KPI), которые нужно улучшить.
  • Выберите подходящее ИИ-решение и начните с небольшого проекта.
  • Анализируйте результаты и расширяйте автоматизацию на основе полученных данных.

Если вам нужны советы по внедрению ИИ, пишите нам в Telegram. Следите за новостями о ИИ в нашем Telegram-канале или в Twitter.

Попробуйте AI Sales Bot — этот ИИ-ассистент в продажах помогает отвечать на вопросы клиентов и снижает нагрузку на команду.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab. Будущее уже здесь!

“`

Полезные ссылки: