“`html
Large Language Models (LLMs) and their multi-modal counterparts (MLLMs) in Visual Mathematical Problem-Solving
Большие языковые модели (LLM) и их мульти-модальные аналоги (MLLM) сделали значительные шаги в развитии искусственного общего интеллекта (AGI) в различных областях. Однако эти модели сталкиваются с серьезными проблемами в области визуального математического решения проблем. Визуальная математика вводит дополнительный уровень сложности, требующий не только понимания математических концепций, но и точной интерпретации визуальных элементов, таких как геометрические фигуры, углы, измерения и пространственные отношения, представленные в диаграммах.
Проблемы и Подходы
Модели MLLM демонстрируют впечатляющие возможности в различных задачах, но испытывают затруднения в полном использовании своего потенциала при решении математических проблем в визуальных контекстах. Для решения этой проблемы исследователи из CUHK, Peking University, Shanghai AI Laboratory и Oracle представляют MAVIS (MAthematical VISual instruction tuning) – эффективный подход к визуальной математической настройке инструкций для MLLM.
Решение MAVIS
MAVIS представляет собой комплексный подход, включающий два ключевых компонента: высококачественные наборы данных (MAVIS-Caption и MAVIS-Instruct), созданные с помощью сложного движка данных, и трехэтапную обучающую программу. Этот процесс последовательно улучшает визуальное кодирование математики, улучшает соответствие между диаграммами и языком, а также развивает математические способности рассуждения.
Результатом является MAVIS-7B, специализированная модель MLLM, оптимизированная для визуальных математических задач, которая демонстрирует выдающуюся производительность на оценочных показателях по сравнению с существующими открытыми моделями MLLM, подчеркивая эффективность этого целенаправленного подхода в развитии возможностей визуального математического решения проблем.
Заключение
MAVIS представляет инновационный подход, устанавливающий новый стандарт в области визуального математического решения проблем, что открывает путь для будущих достижений в этой критической области искусственного интеллекта и технологий образования.
Подробнее ознакомиться с исследованием можно в статье и на GitHub.
Вся заслуга за это исследование принадлежит его авторам.
Не забудьте подписаться на наш Twitter.
Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.
Если вам понравилась наша работа, вам понравится и наша рассылка.
Не забудьте присоединиться к нашему сообществу в Reddit.