Оценка протоколов для безопасной и эффективной работы систем искусственного интеллекта через призму теории игр

 Optimizing AI Safety and Deployment: A Game-Theoretic Approach to Protocol Evaluation in Untrusted AI Systems

“`html

Оптимизация безопасности и развертывание ИИ: игровой подход к оценке протокола в ненадежных системах искусственного интеллекта

AI Control оценивает безопасность протоколов развертывания ненадежных ИИ с помощью красных команд, включающих дизайнера протокола и противника. Системы ИИ, такие как чат-боты с доступом к инструментам, становятся все более внедренными в различные задачи, что усложняет их безопасное развертывание. Проведенные исследования фокусировались на создании надежных моделей или обнаружении вредоносного поведения с помощью инструментов интерпретации, исследование представляет дополнительный подход, оценивающий стратегии безопасного развертывания ненадежных систем ИИ, особенно когда существует значительная неопределенность в их поведении в различных и сложных сценариях использования.

AI-Control Games

Исследователи из Университета Оксфорда и Redwood Research представляют AI-Control Games, формальную систему принятия решений для оценки красных команд как многокритериальных, частично наблюдаемых, стохастических игр. Особый акцент делается на поиске оптимальных протоколов для безопасного развертывания ненадежных языковых моделей в качестве программных помощников. Исследование подчеркивает протоколы Trusted Monitoring, основанные на менее надежных моделях и контроле человека для обнаружения вредного поведения. Игры AI-Control помогают оценить безопасность и полезность протокола, обеспечивая улучшения по сравнению с эмпирическими исследованиями. Исследование исследует компромиссы между безопасностью и эффективностью, предлагая алгоритмы для определения оптимальных протоколов и оценки стратегий развертывания ненадежных систем ИИ в реальном мире.

Игровой теоретический подход AI-Control Games

Игровая теоретическая концепция AI-Control Games представляет уникальный подход к безопасности ИИ путем моделирования принятия решений между дизайнером протокола и противником. В отличие от аналогичных структур в других областях, AI-Control Games отличаются своим фокусом на частично наблюдаемые, многокритериальные сценарии. В этих играх дизайнер стремится максимизировать безопасность и эффективность, в то время как противник пытается найти уязвимости. В отличие от традиционных моделей, AI-Control Games включают многораундовые взаимодействия и неполную информацию, что делает их более применимыми к реальным сценариям развертывания ИИ. Эти игры балансируют безопасность с практической полезностью, что является критическим аспектом в управлении и мониторинге систем ИИ.

Исследование AI-Control Games

Исследование рассматривает AI-Control Games, где ненадежный ИИ (U), доверенный ИИ (T) и человек (H) работают вместе для решения задач программирования. Протокол использует T для оценки решений U, оценивая их безопасность через оценочные баллы подозрения. Если решение кажется скомпрометированным, H может провести аудит, или T может создать альтернативное решение. Красная команда вводит уязвимости, в то время как синяя команда стремится их предотвратить. Исследование формализует это взаимодействие как игру для двух игроков, анализируя как безопасность, так и полезность в сценариях, где ненадежный ИИ может попытаться подорвать протокол.

Протокол Trusted Monitoring и модель AI-Control Game

В модели протокола Trusted Monitoring, как определено в общем каркасе, Trusted Monitoring AI-Control Game (GTM) детализируется через кортеж (S, …, H). Динамика протокола зависит от того, является ли игра коварной (⊗) или честной (⊕), причем действия Red могут быть либо представлением задней двери, либо предоставлением безопасного решения. Пространство состояний игры состоит из количества оставшихся задач для решения, доступных аудитивных монет и булева значения, указывающего, является ли текущая ситуация скомпрометированной задней дверью. В честных играх действие Red заменяется нулевым действием, что приводит к оценке синего на основе полезности только. В коварных играх, где безопасность критична, у синего есть возможность провести аудит, отложить или запустить решение, и безопасность достигается путем обнаружения задних дверей человеческими аудиторами или избегания скомпрометированных решений в целом.

Оценка протоколов без памяти

Оценка протоколов без памяти упрощается путем ограничения политик на основе фиксированных ложноположительных результатов для аудитивных и отложенных действий. Безопасность этих протоколов вычисляется с использованием динамического программирования, а значения безопасности и полезности выводятся из полиномиального выражения для уровня задней двери. Представленная модель и алгоритмы позволяют идентифицировать Парето-оптимальные протоколы, балансирующие безопасность и полезность в различных сценариях. Особенно важно, что результаты показывают, что увеличение ложноположительной ставки аудита может улучшить производительность протокола.

Проект и исследование

Подробнее о проекте Вы можете узнать, перейдя по ссылке. Вся заслуга за это исследование принадлежит его авторам. Также, не забудьте подписаться на наш Twitter и присоединиться к нашему Telegram каналу и группе в LinkedIn. Если вам понравилась наша работа, вам понравится и наша рассылка.

Не забудьте присоединиться к нашему сообществу на Reddit с более чем 50 000 участников.

Бесплатный вебинар по ИИ: “SAM 2 для видео: как настроить под свои данные” (ср, 25 сентября, 4:00 – 4:45 EST)

Источник: MarkTechPost

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте Optimizing AI Safety and Deployment: A Game-Theoretic Approach to Protocol Evaluation in Untrusted AI Systems.

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на itinai. Следите за новостями о ИИ в нашем Телеграм-канале itinainews или в Twitter @itinairu45358.

Попробуйте AI Sales Bot. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!

“`

Полезные ссылки: