Omni-R1: Революция в аудио-вопросах с помощью обучения с подкреплением и автоматической генерации данных

Itinai.com it company office background blured photography by 1c555838 67bd 48d3 ad0a fee55b70a02d 3

Omni-R1: Продвижение Аудио Вопросов и Ответов с Помощью Обучения с Подкреплением и Авто-Генерируемых Данных

Недавние разработки показывают, что обучение с подкреплением (RL) может значительно улучшить способности рассуждения крупных языковых моделей (LLM). Данное исследование сосредоточено на улучшении Аудио LLM — моделей, которые обрабатывают аудио и текст для выполнения задач, таких как ответы на вопросы.

Бенчмарк MMAU

MMAU — это широко используемый набор данных для оценки этих моделей через вопросы множественного выбора, связанные со звуками, речью и музыкой, некоторые из которых требуют внешних знаний.

Метод GRPO

Предыдущий подход, R1-AQA, использовал оптимизацию относительной политики группы (GRPO) для дообучения модели Qwen2-Audio на наборе данных AVQA, добиваясь передовых результатов на бенчмарке MMAU. На этой основе авторы применили GRPO для дообучения более новой мультимодальной модели Qwen2.5-Omni-7B, что привело к дальнейшему повышению производительности.

Автоматическое Генерирование Данных

В дополнение к этому, была предложена методика автоматического создания данных для вопросов и ответов, что способствовало улучшению результатов.

Технические Характеристики

Модель Omni-R1 дообучает Qwen2.5-Omni, используя метод GRPO, с простым форматом запросов, который позволяет выбирать ответы напрямую, что делает его эффективным для использования на графических процессорах с 48 ГБ памяти. GRPO избегает применения функции значения, сравнивая сгруппированные выходные данные на основе правильности ответов.

Результаты Производительности

Исследователи дообучили Qwen2.5-Omni, используя GRPO на наборах данных AVQA, AVQA-GPT и VGGS-GPT. Результаты показали значительные увеличения производительности с лучшим средним баллом 71.3% на тесте MAU Test-mini из VGGS-GPT.

Заключение

В результате, Omni-R1 является Аудио LLM, разработанным путем дообучения Qwen2.5-Omni с помощью метода GRPO для улучшенного ответа на вопросы. Omni-R1 добился новых передовых результатов на бенчмарке MMAU по всем категориям. Работа подчеркивает важность текстового рассуждения для производительности Аудио LLM и обещает публичный доступ ко всем ресурсам.

Практические Бизнес-Решения

Изучите, как технологии искусственного интеллекта могут трансформировать ваш подход к работе.

Найдите процессы, которые можно автоматизировать, и определите, где ИИ может принести наибольшую пользу в взаимодействии с клиентами.
Выберите инструменты, соответствующие вашим потребностям, и настройте их в соответствии с вашими целями.
Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе.

Контакты

Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Подписывайтесь на наш Telegram, чтобы быть в курсе последних новостей ИИ.

Пример ИИ-Решения

Посмотрите пример решения на базе ИИ: продажный бот, разработанный для автоматизации общения с клиентами на сайте itinai.ru/aisales, который управляет взаимодействиями на всех этапах клиентского пути.

Сотрудничество

Бесплатный ИИ текст генератор

Спросить ИИ чат

Заказать разработку

20.05.2025