Улучшение оценки галлюцинаций в моделях зрительно-языкового восприятия

 THRONE: Advancing the Evaluation of Hallucinations in Vision-Language Models

“`html

Понимание и смягчение галлюцинаций в моделях зрение-язык (VLVMs)

Это новое направление исследований в области искусственного интеллекта, которое занимается возникновением согласованных, но фактически неверных ответов от этих продвинутых систем искусственного интеллекта. Поддержание точности выводов VLVM становится ключевым в ситуациях, где требуется высокая точность, таких как медицинская диагностика или автономное вождение.

Проявления галлюцинаций в VLVMs и их влияние

Галлюцинации в VLVMs проявляются как правдоподобные, но неверные детали, сгенерированные на основе изображения. Эти неточности представляют значительные риски, потенциально искажая решения в критических приложениях. Основная задача заключается в обнаружении этих ошибок и разработке методов их эффективного смягчения, обеспечивая надежность выводов VLVM.

Возможное решение: THRONЕ

THRONE (Text-from-image Hallucination Recognition with Object-probes for open-ended Evaluation) представляет собой новую платформу, разработанную исследователями из Университета Оксфорда и лабораторий искусственного интеллекта AWS, предназначенную для оценки галлюцинаций, тип I, которые возникают в ответ на открытые запросы, требующие детальных описаний изображений. В отличие от предыдущих методов, THRONE использует общедоступные языковые модели для оценки галлюцинаций в свободных ответах, созданных различными VLVM, предлагая более комплексный и строгий подход.

Применение метрик для количественной оценки галлюцинаций в VLVMs

THRONE использует несколько метрик для количественной оценки галлюцинаций в различных VLVM. Например, он использует метрики точности и полноты, а также метрику F0.5 по классам, акцентируя внимание на точности в два раза больше, чем на полноту.

Значение для практических приложений

Оценка эффективности THRONE позволила получить ценные данные о распространенности и характеристиках галлюцинаций в текущих VLVMs. Несмотря на продвинутый подход платформы, результаты свидетельствуют о том, что многие VLVM все еще имеют высокий уровень галлюцинаций, что подчеркивает постоянные вызовы в снижении галлюцинаций и повышении надежности выводов VLVM в практических приложениях.

THRONE: Продвижение оценки галлюцинаций в моделях зрение-язык

THRONE представляет значительный шаг вперед в оценке галлюцинаций в моделях зрение-язык, особенно в отношении сложной проблемы галлюцинаций типа I в свободных ответах. Несмотря на то, что существующие бенчмарки сталкиваются с проблемой эффективной оценки этого более тонкого типа ошибок, THRONE использует новаторское сочетание общедоступных языковых моделей и надежной системы метрик, включая точность, полноту и метрику F0.5 по классам. Несмотря на эти достижения, высокий уровень детектированных галлюцинаций, около 20% в некоторых моделях, подчеркивает постоянные вызовы и необходимость дальнейших исследований для улучшения точности и надежности VLVM в практических приложениях.

Проверьте Статью. Весь кредит за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter. Присоединяйтесь к нашему Каналу в Telegram, Каналу в Discord и Группе в LinkedIn.

Если вам понравилась наша работа, вам понравится и наш бюллетень.

Не забудьте присоединиться к нашему 42k+ ML SubReddit

The post THRONE: Продвижение оценки галлюцинаций в моделях зрение-язык appeared first on MarkTechPost.

“`

Полезные ссылки: