✅ Исследователи компании Microsoft предлагают визуализацию мыслей, стимулирующую пространственное мышление в больших языковых моделях.

Исследователи Microsoft предлагают визуализацию мыслей, которая вызывает пространственное мышление в больших языковых моделях. Большие языковые модели (LLM) отлично справляются с пониманием языка и задачами рассуждения, но у них отсутствует пространственное мышление, важный аспект человеческого познания. Люди обладают удивительными навыками в образном мышлении, что позволяет им представлять невидимый мир. Эта способность остается относительно неизученной в LLM, что подчеркивает пробел в их понимании пространственных концепций и их неспособность воспроизводить человекоподобное воображение.

Исследователи Microsoft предлагают метод «Визуализация мыслей» (VoT), который может генерировать и манипулировать ментальными образами, аналогичными образному мышлению человеческого разума для пространственного рассуждения. Через VoT LLM используют визуально-пространственный блокнот для визуализации этапов рассуждения, улучшая последующее пространственное мышление. VoT использует нулевую подсказку, используя способность LLM к приобретению ментальных образов из текстового визуального искусства, вместо использования демонстраций с небольшим количеством образцов или техник текст-к-изображению с CLIP.

VoT побуждает LLM генерировать визуализации после каждого этапа рассуждения, формируя переплетенные следы рассуждений. Использование визуально-пространственного блокнота отслеживает визуальное состояние, представленное частичными решениями на каждом этапе. Этот механизм закладывает рассуждения LLM в визуальном контексте, улучшая их пространственные способности в задачах, таких как навигация и укладка.

GPT-4 VoT превосходит другие настройки во всех задачах и метриках, указывая на эффективность отслеживания визуального состояния. Сравнения показывают значительные различия в производительности, подчеркивая превосходство VoT. В задаче естественного языкового навигации GPT-4 VoT превосходит GPT-4 без VoT на 27%. Заметно, что GPT-4 CoT отстает от GPT-4V CoT в визуальных задачах, что указывает на преимущество закладывания LLM в 2D-сетку для пространственного рассуждения.

Ключевые вклады данного исследования:

— Статья исследует образное мышление LLM для пространственного рассуждения, анализируя его природу и ограничения, а также затрагивает его происхождение из предварительного кодирования.
— Вводит две уникальные задачи «визуальная навигация» и «визуальная укладка», сопровождаемые синтетическими наборами данных. Они предлагают разнообразные сенсорные входы для LLM и различные уровни сложности, тем самым обеспечивая надежную платформу для исследования пространственного рассуждения.
— Исследователи предлагают метод VoT, который эффективно вызывает образное мышление LLM для пространственного рассуждения, демонстрируя превосходную производительность по сравнению с другими методами подсказок и существующими мультимодальными большими языковыми моделями (MLLM). Эта способность напоминает процесс образного мышления человеческого разума, что указывает на ее потенциальное применение в улучшении MLLM.

В заключение исследование представляет VoT, который отражает когнитивные функции человека в визуализации ментальных образов. VoT позволяет LLM преуспевать в многопереходных задачах пространственного рассуждения, превосходя MLLM в визуальных задачах. Аналогично процессу образного мышления, эта способность указывает на потенциал для MLLM. Результаты подчеркивают эффективность VoT в улучшении пространственного рассуждения в LLM, указывая на его потенциал для развития мультимодальных языковых моделей.

AI Solutions – Itinai

Если вы хотите развить свою компанию с помощью искусственного интеллекта, оставаться конкурентоспособным и использовать в своих интересах предложение исследователей Microsoft о визуализации мыслей, вызывающей пространственное рассуждение в больших языковых моделях. Узнайте, как искусственный интеллект может переопределить ваш способ работы.

Практическое решение в области искусственного интеллекта

Выявление возможностей автоматизации: Найдите ключевые точки взаимодействия с клиентами, которые могут выиграть от использования искусственного интеллекта.

Определение KPI: Убедитесь, что ваши усилия в области искусственного интеллекта имеют измеримое влияние на бизнес-результаты.

Выбор решения в области искусственного интеллекта: Выберите инструменты, которые соответствуют вашим потребностям и предоставляют возможности настройки.

Постепенная реализация: Начните с пилотного проекта, собирайте данные и расширяйте использование искусственного интеллекта осторожно.

Для консультаций по управлению KPI в области искусственного интеллекта свяжитесь с нами по адресу hello@itinai.com. И для постоянных идей по использованию искусственного интеллекта оставайтесь на связи в нашем Telegram или Twitter.

Проект практического решения в области искусственного интеллекта:

Рассмотрите AI Sales Bot от itinai.com/aisalesbot, разработанный для автоматизации взаимодействия с клиентами 24/7 и управления взаимодействиями на всех этапах путешествия клиента.

Узнайте, как искусственный интеллект может переопределить ваши процессы продаж и взаимодействия с клиентами. Исследуйте решения на itinai.com.

Список полезных ссылок:

AI Lab в Telegram @aiscrumbot – бесплатная консультация

Twitter – @itinaicom

Исследователи компании Microsoft предлагают визуализацию мыслей, стимулирующую пространственное мышление в больших языковых моделях.

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Запустите свой ИИ проект бесплатно

AI для начинающего психолога без сайта

Монетизация AI в нише репетиторства по английскому

Использование AI для специалистов по питанию

AI-боты в онлайн-образовании

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Аналитик документов : извлечение данных из контрактов и отчетов

ИИ-Агент для управления проектами : планирование и контроль сроков

ИИ-Агент по анализу отзывов : мониторинг мнений в соцсетях и на маркетплейсах

ИИ-Аналитик конкурентов : мониторинг цен и позиционирования

Как оператору правильно перевести звонок на старшего: искусственный интеллект даст шаблон фразы и перехода

Как восстановить диалог с «пропавшим» клиентом: искусственный интеллект предложит 3 текста касания

Как провести экспресс-анализ резюме за 3 минуты: искусственный интеллект подскажет, на что смотреть первым

Как юрисконсульту быстро проверить договор на юридические риски: ИИ предложит 10 пунктов проверки и выделит слабые места

Как не теряться в диалоге: искусственный интеллект сгенерирует 5 реакций на нестандартные ответы клиента

Как построить реестр рисков компании: ИИ предложит структуру, категории и приоритеты

Лучший ИИ онлайн

Этические риски настройки ChatGPT: важная информация

Эффективные методы обучения LLM для решения логических задач: Enigmata и RLVR

Площадка GenAI-Arena для оценки генеративных ИИ-моделей сообществом

Оптимизация Политики Контроля Длины: Повышение Эффективности Моделей Рассуждений

SWERank: Эффективное решение для локализации программных ошибок от Salesforce AI

InfiGUIAgent: Новый универсальный агент для работы с графическим интерфейсом с возможностью рассуждений и рефлексии.

Датасет Common Crawl: большой общедоступный набор данных для обучения языковых моделей.

Решение сложных математических проблем с помощью Google DeepMind: AlphaProof и AlphaGeometry-2.

Политика конфиденциальности

Новости

Контакты

FAQ

Карта сайта

Отказ от ответственности