От схем к решениям: трехэтапная система MAVIS для математического искусственного интеллекта.

 From Diagrams to Solutions: MAVIS’s Three-Stage Framework for Mathematical AI

“`html

Large Language Models (LLMs) and their multi-modal counterparts (MLLMs) in Visual Mathematical Problem-Solving

Большие языковые модели (LLM) и их мульти-модальные аналоги (MLLM) сделали значительные шаги в развитии искусственного общего интеллекта (AGI) в различных областях. Однако эти модели сталкиваются с серьезными проблемами в области визуального математического решения проблем. Визуальная математика вводит дополнительный уровень сложности, требующий не только понимания математических концепций, но и точной интерпретации визуальных элементов, таких как геометрические фигуры, углы, измерения и пространственные отношения, представленные в диаграммах.

Проблемы и Подходы

Модели MLLM демонстрируют впечатляющие возможности в различных задачах, но испытывают затруднения в полном использовании своего потенциала при решении математических проблем в визуальных контекстах. Для решения этой проблемы исследователи из CUHK, Peking University, Shanghai AI Laboratory и Oracle представляют MAVIS (MAthematical VISual instruction tuning) – эффективный подход к визуальной математической настройке инструкций для MLLM.

Решение MAVIS

MAVIS представляет собой комплексный подход, включающий два ключевых компонента: высококачественные наборы данных (MAVIS-Caption и MAVIS-Instruct), созданные с помощью сложного движка данных, и трехэтапную обучающую программу. Этот процесс последовательно улучшает визуальное кодирование математики, улучшает соответствие между диаграммами и языком, а также развивает математические способности рассуждения.

Результатом является MAVIS-7B, специализированная модель MLLM, оптимизированная для визуальных математических задач, которая демонстрирует выдающуюся производительность на оценочных показателях по сравнению с существующими открытыми моделями MLLM, подчеркивая эффективность этого целенаправленного подхода в развитии возможностей визуального математического решения проблем.

Заключение

MAVIS представляет инновационный подход, устанавливающий новый стандарт в области визуального математического решения проблем, что открывает путь для будущих достижений в этой критической области искусственного интеллекта и технологий образования.

Подробнее ознакомиться с исследованием можно в статье и на GitHub.

Вся заслуга за это исследование принадлежит его авторам.

Не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.

Если вам понравилась наша работа, вам понравится и наша рассылка.

Не забудьте присоединиться к нашему сообществу в Reddit.


“`

Полезные ссылки: