✅ Оценка понимания языковыми моделями временных зависимостей в процедурных текстах

«`html

Оценка понимания языковых моделей временных зависимостей в процедурных текстах

Понимание того, как языковые модели глубокого обучения понимают естественные языковые планы, такие как инструкции и рецепты, является ключевым для их надежного использования в системах принятия решений. Критическим аспектом планов является их временное упорядочение, отражающее причинные связи между шагами. Планирование, неотъемлемое для процессов принятия решений, было широко изучено в различных областях, таких как робототехника и воплощенные среды. Эффективное использование, изменение или настройка планов требует способности рассуждать о вовлеченных шагах и их причинных связях. В то время как оценка в областях, таких как Blocksworld и симулированные среды, является обычной, планы на естественном языке в реальном мире представляют уникальные вызовы из-за их неспособности быть физически выполненными для проверки правильности и надежности.

Исследователи из Университета Стоуни-Брук, Военно-морской академии США и Университета Техаса в Остине разработали CAT-BENCH, бенчмарк для оценки способности передовых языковых моделей предсказывать последовательность шагов в кулинарных рецептах. Их исследование показывает, что текущие передовые языковые модели нуждаются в помощи в этой задаче, даже с использованием техник, таких как обучение с небольшим количеством данных и подсказки на основе объяснений, достигая низких показателей F1. Хотя эти модели могут генерировать последовательные планы, исследование подчеркивает значительные вызовы в понимании причинных и временных отношений в инструкционных текстах. Оценки показывают, что подача моделям запросов на объяснение их прогнозов после их генерации улучшает производительность по сравнению с традиционной подачей цепочки мыслей, выявляя несоответствия в рассуждениях модели.

Ранние исследования подчеркивали понимание планов и целей. Генерация планов включает временное рассуждение и отслеживание состояний сущностей. NaturalPlan фокусируется на нескольких задачах реального мира, включающих взаимодействие на естественном языке. PlanBench продемонстрировал вызовы в разработке эффективных планов в рамках строгого синтаксиса — модели задачи конструирования сценария, ориентированные на цель, для создания последовательностей шагов для конкретных целей. ChattyChef использует разговорные настройки для уточнения порядка шагов. CoPlan пересматривает шаги для соответствия ограничениям. Исследования, такие как состояния сущностей, связь действий и предсказание следующего события, исследуют понимание планов. Различные наборы данных рассматривают зависимости в инструкциях и разветвления принятия решений. Однако необходимо больше наборов данных, фокусирующихся на предсказании и объяснении временных ограничений порядка в инструкционных планах.

CAT-BENCH оценивает способность моделей распознавать временные зависимости между шагами в кулинарных рецептах. Основываясь на причинных связях в направленном ациклическом графе (DAG) рецепта, он задает вопросы о том, должен ли один шаг произойти до или после другого. Например, определение того, должно ли размещение теста на противень предшествовать извлечению испеченного торта для остывания, зависит от понимания предусловий и эффектов шага. CAT-BENCH содержит 2 840 вопросов по 57 рецептам, равномерно разделенных между вопросами, проверяющими временные отношения «до» и «после». Модели оцениваются по их точности, полноте и показателю F1 в предсказании этих зависимостей, а также их способности предоставлять действительные объяснения своим суждениям.

Различные модели были оценены на CAT-BENCH по их производительности в предсказании зависимостей шагов. В нулевом сценарии GPT-4-turbo и GPT-3.5-turbo показали самые высокие показатели F1, при этом GPT-4o показал неожиданно худшие результаты. Добавление объяснений к ответам в целом улучшило производительность модели, заметно улучшив показатель F1 у GPT-4o. Однако модели были склонны к предсказанию зависимостей, что сказалось на общем балансе точности и полноты. Человеческая оценка объяснений, сгенерированных моделями, показала различное качество, причем более крупные модели в целом превосходили более маленькие. Модели нуждались в последовательности в предсказании порядка шагов, особенно при добавлении объяснений. Дополнительный анализ выявил распространенные ошибки, такие как непонимание многопереходных зависимостей и неспособность определить причинные связи между шагами.

CAT-BENCH представляет новый бенчмарк для оценки способностей языковых моделей понимать причинные и временные отношения в процедурных текстах, таких как кулинарные рецепты. Несмотря на продвижения в передовых моделях (LLM), ни одна из них точно не определяет, должен ли один шаг в плане предшествовать или следовать за другим, особенно в распознавании независимостей. Модели также проявляют несогласованность в своих прогнозах. Подача запросов на ответ от LLM, за которым следует объяснение, значительно улучшает их производительность по сравнению с рассуждением, за которым следует ответ. Однако человеческая оценка этих объяснений показывает значительное пространство для улучшения понимания моделей зависимостей шагов. Эти результаты подчеркивают текущие ограничения LLM для приложений, основанных на планах.

Проверьте статью. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter.

Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему сообществу 45 тыс. подписчиков на Reddit о машинном обучении.

«`

Оценка понимания языковыми моделями временных зависимостей в процедурных текстах

Оценка понимания языковых моделей временных зависимостей в процедурных текстах

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Запустите свой ИИ проект бесплатно

Монетизация блога по саморазвитию через AI

AI в нише животных — бизнес для зоомагазина и блогера

Инфлюенсер и AI — монетизация личного бренда

Как эксперт по маркетингу может начать с AI

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Агент по автоматизации юридических процессов : подготовка шаблонных документов

ИИ-Агент для управления проектами : планирование и контроль сроков

ИИ-Аналитик социальных сетей : генерация стратегий контента

ИИ-Оптимизатор складских запасов : прогнозирование потребностей и минимизация издержек

Как описать риск в формате для аудита и совета директоров: ИИ адаптирует текст под уровень восприятия

Как оператору правильно перевести звонок на старшего: искусственный интеллект даст шаблон фразы и перехода

Как техническому писателю составить глоссарий терминов для IT-продукта: ИИ подберет определения с учетом контекста

Как провести оценку эффективности обучения по модели Киркпатрика: ИИ предложит чек-лист и шаблон отчета

Как не теряться в диалоге: искусственный интеллект сгенерирует 5 реакций на нестандартные ответы клиента

Как настроить KPI для административного персонала: искусственный интеллект подберёт метрики и шкалу оценки

Лучший ИИ онлайн

Революция в синтезе речи: как датасет Emilia меняет многозначный голосовой генератор

Видео искусственный интеллект улучшается с помощью умных наград на основе подписей.

QeRL: Эффективное обучение больших языковых моделей с помощью квантования и усиленного обучения

Новый алгоритм для оптимизации распознавания речи: сравнение существующих методов.

Microsoft представляет Debug-Gym: как ИИ может улучшить отладку кода

Инструмент для создания атак, похожих на человеческие, с использованием разнообразных тактик взлома.

Использование ChatGPT для улучшения принятия туристических решений: выводы из теории доступности и диагностики.

WorFBench: Оценка генерации сложных рабочих процессов в агентах больших языковых моделей

Карта сайта

Возврат и гарантии

Условия использования

Отказ от ответственности

Доступность

FAQ