“`html
Понимание и смягчение галлюцинаций в моделях зрение-язык (VLVMs)
Это новое направление исследований в области искусственного интеллекта, которое занимается возникновением согласованных, но фактически неверных ответов от этих продвинутых систем искусственного интеллекта. Поддержание точности выводов VLVM становится ключевым в ситуациях, где требуется высокая точность, таких как медицинская диагностика или автономное вождение.
Проявления галлюцинаций в VLVMs и их влияние
Галлюцинации в VLVMs проявляются как правдоподобные, но неверные детали, сгенерированные на основе изображения. Эти неточности представляют значительные риски, потенциально искажая решения в критических приложениях. Основная задача заключается в обнаружении этих ошибок и разработке методов их эффективного смягчения, обеспечивая надежность выводов VLVM.
Возможное решение: THRONЕ
THRONE (Text-from-image Hallucination Recognition with Object-probes for open-ended Evaluation) представляет собой новую платформу, разработанную исследователями из Университета Оксфорда и лабораторий искусственного интеллекта AWS, предназначенную для оценки галлюцинаций, тип I, которые возникают в ответ на открытые запросы, требующие детальных описаний изображений. В отличие от предыдущих методов, THRONE использует общедоступные языковые модели для оценки галлюцинаций в свободных ответах, созданных различными VLVM, предлагая более комплексный и строгий подход.
Применение метрик для количественной оценки галлюцинаций в VLVMs
THRONE использует несколько метрик для количественной оценки галлюцинаций в различных VLVM. Например, он использует метрики точности и полноты, а также метрику F0.5 по классам, акцентируя внимание на точности в два раза больше, чем на полноту.
Значение для практических приложений
Оценка эффективности THRONE позволила получить ценные данные о распространенности и характеристиках галлюцинаций в текущих VLVMs. Несмотря на продвинутый подход платформы, результаты свидетельствуют о том, что многие VLVM все еще имеют высокий уровень галлюцинаций, что подчеркивает постоянные вызовы в снижении галлюцинаций и повышении надежности выводов VLVM в практических приложениях.
THRONE: Продвижение оценки галлюцинаций в моделях зрение-язык
THRONE представляет значительный шаг вперед в оценке галлюцинаций в моделях зрение-язык, особенно в отношении сложной проблемы галлюцинаций типа I в свободных ответах. Несмотря на то, что существующие бенчмарки сталкиваются с проблемой эффективной оценки этого более тонкого типа ошибок, THRONE использует новаторское сочетание общедоступных языковых моделей и надежной системы метрик, включая точность, полноту и метрику F0.5 по классам. Несмотря на эти достижения, высокий уровень детектированных галлюцинаций, около 20% в некоторых моделях, подчеркивает постоянные вызовы и необходимость дальнейших исследований для улучшения точности и надежности VLVM в практических приложениях.
Проверьте Статью. Весь кредит за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter. Присоединяйтесь к нашему Каналу в Telegram, Каналу в Discord и Группе в LinkedIn.
Если вам понравилась наша работа, вам понравится и наш бюллетень.
Не забудьте присоединиться к нашему 42k+ ML SubReddit
The post THRONE: Продвижение оценки галлюцинаций в моделях зрение-язык appeared first on MarkTechPost.
“`