Вирго: Многофункциональная языковая модель для улучшенного медленного мышления

Itinai.com it development details code screens blured futuris c6679a58 04d0 490e 917c d214103a6d65 1

«`html

Искусственный интеллект и его новое направление

Исследования в области искусственного интеллекта (ИИ) активно развиваются, особенно в создании систем, способных к сложному мышлению. Мультимодальные большие языковые модели (MLLM) представляют собой важный шаг вперед, объединяя обработку текстовой и визуальной информации.

Преимущества мультимодальных моделей

Эти системы могут решать сложные задачи, такие как математические проблемы и анализ диаграмм. Они открывают новые возможности в образовании, науке и анализе данных.

Проблемы интеграции

Одной из основных трудностей является интеграция визуального и текстового мышления. Традиционные языковые модели хорошо работают с текстом или изображениями, но не могут эффективно комбинировать их для рассуждений.

Подходы к улучшению

Существующие методы повышения возможностей рассуждения в MLLM можно разделить на две стратегии:

Использование структурированных методов поиска, таких как поиск по дереву Монте-Карло;
Обучение моделей с длинными инструкциями рассуждения, часто структурированными как цепочки мыслей (CoT).

Однако эти методы в основном сосредоточены на текстовых задачах, оставляя мультимодальные сценарии недостаточно исследованными.

Модель Virgo

Исследователи из Университета Рэньминь в Китае представили модель Virgo, предназначенную для улучшения медленного мышления в мультимодальных контекстах. Эта модель была разработана с использованием текстовых данных с длинными рассуждениями, что позволило перенести способности рассуждения между модальностями.

Методология разработки

Команда собрала набор данных из 5000 примеров длинных инструкций, в основном из математики, науки и программирования. Эти инструкции включали структурированные процессы рассуждения и финальные решения.

Для оптимизации возможностей Virgo исследователи тщательно настраивали параметры модели, сохраняя при этом визуальные возможности базовой модели.

Оценка и результаты

Virgo была протестирована на четырех сложных бенчмарках: MathVerse, MathVision, OlympiadBench и MMMU. Она продемонстрировала выдающиеся результаты, превзойдя несколько продвинутых моделей и коммерческих систем.

Например, на MathVision модель показала 38.8% точности, что выше многих существующих решений.

Практическое значение

Исследование Virgo демонстрирует, как текстовые инструкции могут значительно улучшить мультимодальные системы. Это открывает новые возможности для будущих исследований и практических приложений ИИ.