Инновационный подход искусственного интеллекта к разблокировке LLM с использованием визуальных подсказок

 Crossing Modalities: The Innovative Artificial Intelligence Approach to Jailbreaking LLMs with Visual Cues

“`html

Решения для безопасности и этики в области искусственного интеллекта

С появлением больших языковых моделей (LLM) возникла серьезная угроза “взлома”, которая стала критической. Взлом включает в себя использование уязвимостей в этих моделях для создания вредного или неприемлемого контента. Поскольку LLM, такие как ChatGPT и GPT-3, стали все более интегрироваться в различные приложения, обеспечение их безопасности и соответствия этическим стандартам стало важным. Несмотря на усилия по соответствию этих моделей руководящим принципам безопасного поведения, злоумышленники все равно могут создавать конкретные запросы, обходящие эти меры предосторожности, что приводит к созданию токсичного, предвзятого или иным образом неприемлемого контента. Эта проблема представляет существенные риски, включая распространение дезинформации, укрепление вредных стереотипов и потенциальное злоупотребление в злонамеренных целях.

Методы взлома LLM

В настоящее время методы взлома в основном включают создание конкретных запросов для обхода соответствия модели. Эти методы можно разделить на две категории: оптимизация на основе дискретных значений и оптимизация на основе встраивания. Методы оптимизации на основе дискретных значений включают прямую оптимизацию дискретных токенов для создания запросов, способных взламывать LLM. Хотя эффективный, этот подход часто требует значительных вычислительных затрат и может потребовать значительного пробного и ошибочного подхода для определения успешных запросов. С другой стороны, методы оптимизации на основе встраивания, вместо работы непосредственно с дискретными токенами, позволяют злоумышленникам оптимизировать встраивания токенов (векторные представления слов) для поиска точек в пространстве встраивания, которые могут привести к взлому. Затем эти встраивания преобразуются в дискретные токены, которые можно использовать в качестве входных запросов. Этот метод может быть более эффективным, чем дискретная оптимизация, но все равно сталкивается с проблемами в отношении надежности и обобщаемости.

Предложенный метод

Команда исследователей из университетов Сидиан, Сиань-Цзяотун и исследовательской группы Wormpex AI предлагает новый метод, который вводит визуальную модальность в целевую LLM, создавая мультимодальную большую языковую модель (MLLM). Этот подход включает создание MLLM путем включения визуального модуля в LLM, выполнение эффективного взлома MLLM для генерации встраиваний взлома (embJS) и их преобразование в текстовые запросы (txtJS) для взлома LLM. Основная идея заключается в том, что визуальные входы могут предоставлять более богатые и гибкие подсказки для создания эффективных запросов взлома, потенциально преодолевая некоторые ограничения методов, основанных исключительно на тексте.

Оценка производительности

Производительность предложенного метода была оценена с использованием мультимодального набора данных AdvBench-M, который включает различные категории вредного поведения. Исследователи протестировали свой подход на нескольких моделях, включая LLaMA-2-Chat-7B и GPT-3.5, продемонстрировав значительные улучшения по сравнению с современными методами. Результаты показали более высокую эффективность и эффективность, с заметным успехом в кросс-классовом взломе, где запросы, разработанные для одной категории вредного поведения, могут также взламывать другие категории.

Заключение

Путем включения визуальных входов предложенный метод улучшает гибкость и богатство запросов взлома, превосходя существующие передовые техники. Этот подход демонстрирует превосходные кросс-классовые возможности и улучшает эффективность взлома, представляя новые вызовы для обеспечения безопасного и этического развертывания передовых языковых моделей. Полученные результаты подчеркивают важность разработки надежных защитных мер против мультимодального взлома для поддержания целостности и безопасности систем искусственного интеллекта.

Подробнее см. Статью. Весь кредит за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, Discord и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему подпишитесь на наш SubReddit | Также, ознакомьтесь с нашей платформой AI Events AI Events Platform.

Источник: MarkTechPost.


“`

Полезные ссылки: