Исследователи Microsoft предлагают визуализацию мыслей, которая вызывает пространственное мышление в больших языковых моделях. Большие языковые модели (LLM) отлично справляются с пониманием языка и задачами рассуждения, но у них отсутствует пространственное мышление, важный аспект человеческого познания. Люди обладают удивительными навыками в образном мышлении, что позволяет им представлять невидимый мир. Эта способность остается относительно неизученной в LLM, что подчеркивает пробел в их понимании пространственных концепций и их неспособность воспроизводить человекоподобное воображение.
Исследователи Microsoft предлагают метод “Визуализация мыслей” (VoT), который может генерировать и манипулировать ментальными образами, аналогичными образному мышлению человеческого разума для пространственного рассуждения. Через VoT LLM используют визуально-пространственный блокнот для визуализации этапов рассуждения, улучшая последующее пространственное мышление. VoT использует нулевую подсказку, используя способность LLM к приобретению ментальных образов из текстового визуального искусства, вместо использования демонстраций с небольшим количеством образцов или техник текст-к-изображению с CLIP.
VoT побуждает LLM генерировать визуализации после каждого этапа рассуждения, формируя переплетенные следы рассуждений. Использование визуально-пространственного блокнота отслеживает визуальное состояние, представленное частичными решениями на каждом этапе. Этот механизм закладывает рассуждения LLM в визуальном контексте, улучшая их пространственные способности в задачах, таких как навигация и укладка.
GPT-4 VoT превосходит другие настройки во всех задачах и метриках, указывая на эффективность отслеживания визуального состояния. Сравнения показывают значительные различия в производительности, подчеркивая превосходство VoT. В задаче естественного языкового навигации GPT-4 VoT превосходит GPT-4 без VoT на 27%. Заметно, что GPT-4 CoT отстает от GPT-4V CoT в визуальных задачах, что указывает на преимущество закладывания LLM в 2D-сетку для пространственного рассуждения.
Ключевые вклады данного исследования:
– Статья исследует образное мышление LLM для пространственного рассуждения, анализируя его природу и ограничения, а также затрагивает его происхождение из предварительного кодирования.
– Вводит две уникальные задачи “визуальная навигация” и “визуальная укладка”, сопровождаемые синтетическими наборами данных. Они предлагают разнообразные сенсорные входы для LLM и различные уровни сложности, тем самым обеспечивая надежную платформу для исследования пространственного рассуждения.
– Исследователи предлагают метод VoT, который эффективно вызывает образное мышление LLM для пространственного рассуждения, демонстрируя превосходную производительность по сравнению с другими методами подсказок и существующими мультимодальными большими языковыми моделями (MLLM). Эта способность напоминает процесс образного мышления человеческого разума, что указывает на ее потенциальное применение в улучшении MLLM.
В заключение исследование представляет VoT, который отражает когнитивные функции человека в визуализации ментальных образов. VoT позволяет LLM преуспевать в многопереходных задачах пространственного рассуждения, превосходя MLLM в визуальных задачах. Аналогично процессу образного мышления, эта способность указывает на потенциал для MLLM. Результаты подчеркивают эффективность VoT в улучшении пространственного рассуждения в LLM, указывая на его потенциал для развития мультимодальных языковых моделей.
AI Solutions – Itinai
Если вы хотите развить свою компанию с помощью искусственного интеллекта, оставаться конкурентоспособным и использовать в своих интересах предложение исследователей Microsoft о визуализации мыслей, вызывающей пространственное рассуждение в больших языковых моделях. Узнайте, как искусственный интеллект может переопределить ваш способ работы.
Практическое решение в области искусственного интеллекта
Выявление возможностей автоматизации: Найдите ключевые точки взаимодействия с клиентами, которые могут выиграть от использования искусственного интеллекта.
Определение KPI: Убедитесь, что ваши усилия в области искусственного интеллекта имеют измеримое влияние на бизнес-результаты.
Выбор решения в области искусственного интеллекта: Выберите инструменты, которые соответствуют вашим потребностям и предоставляют возможности настройки.
Постепенная реализация: Начните с пилотного проекта, собирайте данные и расширяйте использование искусственного интеллекта осторожно.
Для консультаций по управлению KPI в области искусственного интеллекта свяжитесь с нами по адресу hello@itinai.com. И для постоянных идей по использованию искусственного интеллекта оставайтесь на связи в нашем Telegram или Twitter.
Проект практического решения в области искусственного интеллекта:
Рассмотрите AI Sales Bot от itinai.com/aisalesbot, разработанный для автоматизации взаимодействия с клиентами 24/7 и управления взаимодействиями на всех этапах путешествия клиента.
Узнайте, как искусственный интеллект может переопределить ваши процессы продаж и взаимодействия с клиентами. Исследуйте решения на itinai.com.
Список полезных ссылок:
AI Lab в Telegram @aiscrumbot – бесплатная консультация
Twitter – @itinaicom