“`html
Решения для безопасности и этики в области искусственного интеллекта
С появлением больших языковых моделей (LLM) возникла серьезная угроза “взлома”, которая стала критической. Взлом включает в себя использование уязвимостей в этих моделях для создания вредного или неприемлемого контента. Поскольку LLM, такие как ChatGPT и GPT-3, стали все более интегрироваться в различные приложения, обеспечение их безопасности и соответствия этическим стандартам стало важным. Несмотря на усилия по соответствию этих моделей руководящим принципам безопасного поведения, злоумышленники все равно могут создавать конкретные запросы, обходящие эти меры предосторожности, что приводит к созданию токсичного, предвзятого или иным образом неприемлемого контента. Эта проблема представляет существенные риски, включая распространение дезинформации, укрепление вредных стереотипов и потенциальное злоупотребление в злонамеренных целях.
Методы взлома LLM
В настоящее время методы взлома в основном включают создание конкретных запросов для обхода соответствия модели. Эти методы можно разделить на две категории: оптимизация на основе дискретных значений и оптимизация на основе встраивания. Методы оптимизации на основе дискретных значений включают прямую оптимизацию дискретных токенов для создания запросов, способных взламывать LLM. Хотя эффективный, этот подход часто требует значительных вычислительных затрат и может потребовать значительного пробного и ошибочного подхода для определения успешных запросов. С другой стороны, методы оптимизации на основе встраивания, вместо работы непосредственно с дискретными токенами, позволяют злоумышленникам оптимизировать встраивания токенов (векторные представления слов) для поиска точек в пространстве встраивания, которые могут привести к взлому. Затем эти встраивания преобразуются в дискретные токены, которые можно использовать в качестве входных запросов. Этот метод может быть более эффективным, чем дискретная оптимизация, но все равно сталкивается с проблемами в отношении надежности и обобщаемости.
Предложенный метод
Команда исследователей из университетов Сидиан, Сиань-Цзяотун и исследовательской группы Wormpex AI предлагает новый метод, который вводит визуальную модальность в целевую LLM, создавая мультимодальную большую языковую модель (MLLM). Этот подход включает создание MLLM путем включения визуального модуля в LLM, выполнение эффективного взлома MLLM для генерации встраиваний взлома (embJS) и их преобразование в текстовые запросы (txtJS) для взлома LLM. Основная идея заключается в том, что визуальные входы могут предоставлять более богатые и гибкие подсказки для создания эффективных запросов взлома, потенциально преодолевая некоторые ограничения методов, основанных исключительно на тексте.
Оценка производительности
Производительность предложенного метода была оценена с использованием мультимодального набора данных AdvBench-M, который включает различные категории вредного поведения. Исследователи протестировали свой подход на нескольких моделях, включая LLaMA-2-Chat-7B и GPT-3.5, продемонстрировав значительные улучшения по сравнению с современными методами. Результаты показали более высокую эффективность и эффективность, с заметным успехом в кросс-классовом взломе, где запросы, разработанные для одной категории вредного поведения, могут также взламывать другие категории.
Заключение
Путем включения визуальных входов предложенный метод улучшает гибкость и богатство запросов взлома, превосходя существующие передовые техники. Этот подход демонстрирует превосходные кросс-классовые возможности и улучшает эффективность взлома, представляя новые вызовы для обеспечения безопасного и этического развертывания передовых языковых моделей. Полученные результаты подчеркивают важность разработки надежных защитных мер против мультимодального взлома для поддержания целостности и безопасности систем искусственного интеллекта.
Подробнее см. Статью. Весь кредит за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, Discord и группе в LinkedIn.
Если вам нравится наша работа, вам понравится наша рассылка.
Не забудьте присоединиться к нашему подпишитесь на наш SubReddit | Также, ознакомьтесь с нашей платформой AI Events AI Events Platform.
Источник: MarkTechPost.