Искусственный интеллект с возможностью рисования: новый фреймворк для мультимодальных языковых моделей.

 Sketchpad: An AI Framework that Gives Multimodal Language Models LMs a Visual Sketchpad and Tools to Draw on the Sketchpad

“`html

Решение для AI: Sketchpad – фреймворк, который дает мультимодальным языковым моделям (LMs) визуальный скетчпад и инструменты для рисования на скетчпаде

Одной из основных проблем современных мультимодальных языковых моделей (LMs) является их неспособность использовать визуальные средства для процессов рассуждения. В отличие от людей, которые рисуют и скетчат для облегчения решения проблем и рассуждений, LMs полагаются исключительно на текст для промежуточных рассуждений. Это ограничение значительно влияет на их производительность в задачах, требующих пространственного понимания и визуального рассуждения, таких как геометрия, визуальное восприятие и сложные математические проблемы.

Практические решения и ценность

Текущие методы для улучшения визуальных рассуждений LMs включают модели текст-в-изображение и различные мультимодальные парадигмы использования инструментов. Однако они имеют недостатки. Например, модели текст-в-изображение не позволяют динамического взаимодействия с созданным визуальным контентом, что необходимо для задач, требующих итеративных рассуждений. Кроме того, существующие методы часто имеют высокую вычислительную сложность, что делает их непригодными для приложений в реальном времени. Они также не обладают гибкостью для интеграции специализированных моделей зрения в процесс рассуждения, что ограничивает их способность эффективно решать разнообразные и сложные визуальные задачи.

Команда исследователей из Университета Вашингтона, Института Аллена по искусственному интеллекту и Университета Пенсильвании предлагает SKETCHPAD – новый фреймворк, который оснащает мультимодальные LMs визуальным скетчпадом и инструментами для динамического скетчинга. Этот подход позволяет LMs рисовать линии, прямоугольники и метки, облегчая рассуждения ближе к человеческому скетчингу. SKETCHPAD может интегрировать специализированные модели зрения, такие как модели обнаружения объектов и сегментации, для дальнейшего улучшения визуального восприятия и рассуждений. Этот инновационный подход позволяет LMs генерировать и взаимодействовать с визуальными артефактами во время рассуждений, значительно улучшая их производительность в различных задачах.

Предложенный метод работает путем синтеза программ, которые генерируют визуальные скетчи в качестве промежуточных рассуждений. Он использует распространенные пакеты Python, такие как Matplotlib и NetworkX, для математических задач и интегрирует специализированные модели зрения для задач компьютерного зрения. Например, в задачах геометрии SKETCHPAD позволяет LMs рисовать вспомогательные линии на диаграммах для помощи в решении проблем. В задачах, связанных с математическими функциями, он позволяет LMs строить графики функций и визуально анализировать их свойства. Фреймворк не требует тонкой настройки или обучения, что делает его готовым к применению в существующих мультимодальных LMs. Возможность использования специализированных моделей для задач, таких как обнаружение объектов и сегментация, дополнительно улучшает его визуальные рассуждения.

Исследователи представляют обширные эксперименты, демонстрирующие эффективность SKETCHPAD в широком спектре задач, включая геометрию, графовые алгоритмы и сложные визуальные задачи рассуждения. Ключевые показатели производительности, такие как точность, precision и recall, значительно улучшаются с помощью SKETCHPAD. Например, в математических задачах SKETCHPAD достигает среднего прироста 12,7%, а в задачах зрения – среднего прироста 8,6%. Таблица из статьи показывает эффективность SKETCHPAD в задачах геометрии, где он улучшает точность с 37,5% до 45,8% при использовании GPT-4 Turbo. Таблица сравнивает различные методы, включая предложенный подход и существующие базовые уровни, с колонками показателей производительности. Улучшение предложенного метода статистически значимо, подчеркивая его превосходство.

В заключение, предложенный метод представляет SKETCHPAD, новый фреймворк, который значительно улучшает способности рассуждения мультимодальных LMs путем интеграции визуальных инструментов для скетчинга. Предложенное решение преодолевает критические ограничения существующих методов, предлагая более эффективный и точный подход к визуальным рассуждениям. Результаты демонстрируют существенный прирост производительности в различных задачах, указывая на потенциальное влияние SKETCHPAD на область исследований в области искусственного интеллекта путем создания более человекоподобного мультимодального интеллекта.

Проверьте статью и проект. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему подпреддиту с 44 тыс. подписчиков.

Пост Sketchpad: An AI Framework that Gives Multimodal Language Models LMs a Visual Sketchpad and Tools to Draw on the Sketchpad был опубликован на MarkTechPost.

“`

Полезные ссылки: