Использование простого подхода ИИ для улучшения визуального мышления в мультимодальных языковых моделях (MLLMs)

 Whiteboard-of-Thought (WoT) Prompting: A Simple AI Approach to Enhance the Visual Reasoning Abilities of MLLMs Across Modalities

“`html

Whiteboard-of-Thought (WoT) Prompting: Простой подход ИИ для улучшения визуальных аналитических способностей MLLMs в различных модальностях

Большие языковые модели (LLMs) изменили обработку естественного языка (NLP), показав эффективность увеличения числа параметров и обучающих данных для различных задач рассуждения. Одним из успешных методов является chain-of-thought (CoT) prompting, который помогает языковым моделям решать сложные проблемы, разбивая их на промежуточные этапы текстового описания перед выдачей окончательного ответа, фокусируясь на задачах, таких как арифметика и символическое рассуждение.

Однако LLMs плохо справляются с задачами, требующими визуального и пространственного мышления. Для устранения этих недостатков статья обсуждает различные существующие подходы. Первый подход – Intermediate Reasoning for Language Models, который привлек внимание со стороны сообщества NLP и за его успех в задачах арифметики и символического рассуждения. Второй подход – Tool usage and code augmentation, который сравнивается с использованием досок, фокусируясь на улучшении языковой модели с дополнительными вычислениями. Последний метод – Visual and spatial reasoning in LLMs and MLLMs, обративший внимание на ограниченный успех этих моделей в задачах, требующих визуального и пространственного рассуждения.

Исследователи из Колумбийского университета предложили Whiteboard-of-Thought (WoT) prompting, простой подход для улучшения визуальных аналитических способностей MLLMs (мультимодальные большие языковые модели) в различных модальностях. WoT prompting предоставляет MLLMs метафорическую “доску”, на которой они могут изобразить этапы рассуждений в виде изображений, а затем вернуть эти изображения модели для дальнейшей обработки. Этот метод демонстрирует лучшие результаты на четырех трудных задачах обработки естественного языка, требующих визуального и пространственного рассуждения.

Применение в бизнесе

Цель WoT заключается в том, чтобы дать MLLMs возможность создавать изображения и визуально обрабатывать их для более точного ответа на запросы. Текущие MLLMs обычно не обладают способностью самостоятельно создавать выводы в визуальной области, поэтому исследователи показали, как создавать визуальные элементы с использованием модели, которая генерирует только текст. Результаты экспериментов показывают, что WoT показывает себя стабильно в различных геометриях, устраняя зависимость от 2D-грид-специфических текстовых знаний и фокусируясь на общих применениях подхода.

Заключение

Исследователи из Колумбийского университета представили WoT, метод, позволяющий визуальное рассуждение в различных модальностях для MLLMs. Это достигается путем создания кода, который может создавать визуальные элементы, и возвращения этих элементов обратно модели для дальнейшего рассуждения. Эта статья демонстрирует способности WoT на нескольких задачах, которые требуют визуального и пространственного понимания, и которые были сложны для текущих передовых моделей, зависящих от текстового рассуждения.

Подробности о статье и проекте можно изучить по ссылке. Вся заслуга за это исследование принадлежит исследователям проекта. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наш бюллетень.

Не забудьте присоединиться к нашему 45k+ ML SubReddit.

Экспериментируйте с AI Sales Bot здесь.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru.


“`

Полезные ссылки: