“`html
Решение для AI: Sketchpad – фреймворк, который дает мультимодальным языковым моделям (LMs) визуальный скетчпад и инструменты для рисования на скетчпаде
Одной из основных проблем современных мультимодальных языковых моделей (LMs) является их неспособность использовать визуальные средства для процессов рассуждения. В отличие от людей, которые рисуют и скетчат для облегчения решения проблем и рассуждений, LMs полагаются исключительно на текст для промежуточных рассуждений. Это ограничение значительно влияет на их производительность в задачах, требующих пространственного понимания и визуального рассуждения, таких как геометрия, визуальное восприятие и сложные математические проблемы.
Практические решения и ценность
Текущие методы для улучшения визуальных рассуждений LMs включают модели текст-в-изображение и различные мультимодальные парадигмы использования инструментов. Однако они имеют недостатки. Например, модели текст-в-изображение не позволяют динамического взаимодействия с созданным визуальным контентом, что необходимо для задач, требующих итеративных рассуждений. Кроме того, существующие методы часто имеют высокую вычислительную сложность, что делает их непригодными для приложений в реальном времени. Они также не обладают гибкостью для интеграции специализированных моделей зрения в процесс рассуждения, что ограничивает их способность эффективно решать разнообразные и сложные визуальные задачи.
Команда исследователей из Университета Вашингтона, Института Аллена по искусственному интеллекту и Университета Пенсильвании предлагает SKETCHPAD – новый фреймворк, который оснащает мультимодальные LMs визуальным скетчпадом и инструментами для динамического скетчинга. Этот подход позволяет LMs рисовать линии, прямоугольники и метки, облегчая рассуждения ближе к человеческому скетчингу. SKETCHPAD может интегрировать специализированные модели зрения, такие как модели обнаружения объектов и сегментации, для дальнейшего улучшения визуального восприятия и рассуждений. Этот инновационный подход позволяет LMs генерировать и взаимодействовать с визуальными артефактами во время рассуждений, значительно улучшая их производительность в различных задачах.
Предложенный метод работает путем синтеза программ, которые генерируют визуальные скетчи в качестве промежуточных рассуждений. Он использует распространенные пакеты Python, такие как Matplotlib и NetworkX, для математических задач и интегрирует специализированные модели зрения для задач компьютерного зрения. Например, в задачах геометрии SKETCHPAD позволяет LMs рисовать вспомогательные линии на диаграммах для помощи в решении проблем. В задачах, связанных с математическими функциями, он позволяет LMs строить графики функций и визуально анализировать их свойства. Фреймворк не требует тонкой настройки или обучения, что делает его готовым к применению в существующих мультимодальных LMs. Возможность использования специализированных моделей для задач, таких как обнаружение объектов и сегментация, дополнительно улучшает его визуальные рассуждения.
Исследователи представляют обширные эксперименты, демонстрирующие эффективность SKETCHPAD в широком спектре задач, включая геометрию, графовые алгоритмы и сложные визуальные задачи рассуждения. Ключевые показатели производительности, такие как точность, precision и recall, значительно улучшаются с помощью SKETCHPAD. Например, в математических задачах SKETCHPAD достигает среднего прироста 12,7%, а в задачах зрения – среднего прироста 8,6%. Таблица из статьи показывает эффективность SKETCHPAD в задачах геометрии, где он улучшает точность с 37,5% до 45,8% при использовании GPT-4 Turbo. Таблица сравнивает различные методы, включая предложенный подход и существующие базовые уровни, с колонками показателей производительности. Улучшение предложенного метода статистически значимо, подчеркивая его превосходство.
В заключение, предложенный метод представляет SKETCHPAD, новый фреймворк, который значительно улучшает способности рассуждения мультимодальных LMs путем интеграции визуальных инструментов для скетчинга. Предложенное решение преодолевает критические ограничения существующих методов, предлагая более эффективный и точный подход к визуальным рассуждениям. Результаты демонстрируют существенный прирост производительности в различных задачах, указывая на потенциальное влияние SKETCHPAD на область исследований в области искусственного интеллекта путем создания более человекоподобного мультимодального интеллекта.
Проверьте статью и проект. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter.
Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.
Если вам нравится наша работа, вам понравится наш новостной бюллетень.
Не забудьте присоединиться к нашему подпреддиту с 44 тыс. подписчиков.
Пост Sketchpad: An AI Framework that Gives Multimodal Language Models LMs a Visual Sketchpad and Tools to Draw on the Sketchpad был опубликован на MarkTechPost.
“`