Omni-R1: Продвижение Аудио Вопросов и Ответов с Помощью Обучения с Подкреплением и Авто-Генерируемых Данных
Недавние разработки показывают, что обучение с подкреплением (RL) может значительно улучшить способности рассуждения крупных языковых моделей (LLM). Данное исследование сосредоточено на улучшении Аудио LLM — моделей, которые обрабатывают аудио и текст для выполнения задач, таких как ответы на вопросы.
Бенчмарк MMAU
MMAU — это широко используемый набор данных для оценки этих моделей через вопросы множественного выбора, связанные со звуками, речью и музыкой, некоторые из которых требуют внешних знаний.
Метод GRPO
Предыдущий подход, R1-AQA, использовал оптимизацию относительной политики группы (GRPO) для дообучения модели Qwen2-Audio на наборе данных AVQA, добиваясь передовых результатов на бенчмарке MMAU. На этой основе авторы применили GRPO для дообучения более новой мультимодальной модели Qwen2.5-Omni-7B, что привело к дальнейшему повышению производительности.
Автоматическое Генерирование Данных
В дополнение к этому, была предложена методика автоматического создания данных для вопросов и ответов, что способствовало улучшению результатов.
Технические Характеристики
Модель Omni-R1 дообучает Qwen2.5-Omni, используя метод GRPO, с простым форматом запросов, который позволяет выбирать ответы напрямую, что делает его эффективным для использования на графических процессорах с 48 ГБ памяти. GRPO избегает применения функции значения, сравнивая сгруппированные выходные данные на основе правильности ответов.
Результаты Производительности
Исследователи дообучили Qwen2.5-Omni, используя GRPO на наборах данных AVQA, AVQA-GPT и VGGS-GPT. Результаты показали значительные увеличения производительности с лучшим средним баллом 71.3% на тесте MAU Test-mini из VGGS-GPT.
Заключение
В результате, Omni-R1 является Аудио LLM, разработанным путем дообучения Qwen2.5-Omni с помощью метода GRPO для улучшенного ответа на вопросы. Omni-R1 добился новых передовых результатов на бенчмарке MMAU по всем категориям. Работа подчеркивает важность текстового рассуждения для производительности Аудио LLM и обещает публичный доступ ко всем ресурсам.
Практические Бизнес-Решения
Изучите, как технологии искусственного интеллекта могут трансформировать ваш подход к работе.
- Найдите процессы, которые можно автоматизировать, и определите, где ИИ может принести наибольшую пользу в взаимодействии с клиентами.
- Выберите инструменты, соответствующие вашим потребностям, и настройте их в соответствии с вашими целями.
- Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе.
Контакты
Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Подписывайтесь на наш Telegram, чтобы быть в курсе последних новостей ИИ.
Пример ИИ-Решения
Посмотрите пример решения на базе ИИ: продажный бот, разработанный для автоматизации общения с клиентами на сайте itinai.ru/aisales, который управляет взаимодействиями на всех этапах клиентского пути.