✅ Инновационный подход искусственного интеллекта к разблокировке LLM с использованием визуальных подсказок

«`html

Решения для безопасности и этики в области искусственного интеллекта

С появлением больших языковых моделей (LLM) возникла серьезная угроза «взлома», которая стала критической. Взлом включает в себя использование уязвимостей в этих моделях для создания вредного или неприемлемого контента. Поскольку LLM, такие как ChatGPT и GPT-3, стали все более интегрироваться в различные приложения, обеспечение их безопасности и соответствия этическим стандартам стало важным. Несмотря на усилия по соответствию этих моделей руководящим принципам безопасного поведения, злоумышленники все равно могут создавать конкретные запросы, обходящие эти меры предосторожности, что приводит к созданию токсичного, предвзятого или иным образом неприемлемого контента. Эта проблема представляет существенные риски, включая распространение дезинформации, укрепление вредных стереотипов и потенциальное злоупотребление в злонамеренных целях.

Методы взлома LLM

В настоящее время методы взлома в основном включают создание конкретных запросов для обхода соответствия модели. Эти методы можно разделить на две категории: оптимизация на основе дискретных значений и оптимизация на основе встраивания. Методы оптимизации на основе дискретных значений включают прямую оптимизацию дискретных токенов для создания запросов, способных взламывать LLM. Хотя эффективный, этот подход часто требует значительных вычислительных затрат и может потребовать значительного пробного и ошибочного подхода для определения успешных запросов. С другой стороны, методы оптимизации на основе встраивания, вместо работы непосредственно с дискретными токенами, позволяют злоумышленникам оптимизировать встраивания токенов (векторные представления слов) для поиска точек в пространстве встраивания, которые могут привести к взлому. Затем эти встраивания преобразуются в дискретные токены, которые можно использовать в качестве входных запросов. Этот метод может быть более эффективным, чем дискретная оптимизация, но все равно сталкивается с проблемами в отношении надежности и обобщаемости.

Предложенный метод

Команда исследователей из университетов Сидиан, Сиань-Цзяотун и исследовательской группы Wormpex AI предлагает новый метод, который вводит визуальную модальность в целевую LLM, создавая мультимодальную большую языковую модель (MLLM). Этот подход включает создание MLLM путем включения визуального модуля в LLM, выполнение эффективного взлома MLLM для генерации встраиваний взлома (embJS) и их преобразование в текстовые запросы (txtJS) для взлома LLM. Основная идея заключается в том, что визуальные входы могут предоставлять более богатые и гибкие подсказки для создания эффективных запросов взлома, потенциально преодолевая некоторые ограничения методов, основанных исключительно на тексте.

Оценка производительности

Производительность предложенного метода была оценена с использованием мультимодального набора данных AdvBench-M, который включает различные категории вредного поведения. Исследователи протестировали свой подход на нескольких моделях, включая LLaMA-2-Chat-7B и GPT-3.5, продемонстрировав значительные улучшения по сравнению с современными методами. Результаты показали более высокую эффективность и эффективность, с заметным успехом в кросс-классовом взломе, где запросы, разработанные для одной категории вредного поведения, могут также взламывать другие категории.

Заключение

Путем включения визуальных входов предложенный метод улучшает гибкость и богатство запросов взлома, превосходя существующие передовые техники. Этот подход демонстрирует превосходные кросс-классовые возможности и улучшает эффективность взлома, представляя новые вызовы для обеспечения безопасного и этического развертывания передовых языковых моделей. Полученные результаты подчеркивают важность разработки надежных защитных мер против мультимодального взлома для поддержания целостности и безопасности систем искусственного интеллекта.

Подробнее см. Статью. Весь кредит за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, Discord и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему подпишитесь на наш SubReddit | Также, ознакомьтесь с нашей платформой AI Events AI Events Platform.

Источник: MarkTechPost.

«`

Инновационный подход искусственного интеллекта к разблокировке LLM с использованием визуальных подсказок

Решения для безопасности и этики в области искусственного интеллекта

Методы взлома LLM

Предложенный метод

Оценка производительности

Заключение

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Запустите свой ИИ проект бесплатно

Как астролог может использовать AI

Монетизация Telegram-канала с цитатами и мотивацией

AI-монетизация для преподавателя по математике

Монетизация AI в нише копирайтинга

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Специалист по кибербезопасности : анализ фишинговых атак и уязвимостей

ИИ-Специалист по автоматизации интеграции систем : настройка API и потоков данных

ИИ-Маркетолог по контенту : генерация SEO-оптимизированных текстов

ИИ-Специалист по соблюдению норм : автоматизация проверки документов

Как UX-копирайтеру оптимизировать тексты кнопок в интерфейсе: ИИ предложит формулировки A/B-вариантов

Как построить диаграмму “As-Is/To-Be” бизнес-процесса: ИИ опишет текущее состояние и предложит оптимизацию

Как оформить чек-лист первичной диагностики проблемы: ИИ предложит список вопросов по типу обращения

Как восстановить диалог с «пропавшим» клиентом: искусственный интеллект предложит 3 текста касания

Как провести анализ заинтересованных сторон: ИИ сформирует stakeholder map и роли по влиянию

Как настроить KPI для административного персонала: искусственный интеллект подберёт метрики и шкалу оценки

Лучший ИИ онлайн

Встречайте DrugAgent: Многоагентная система для автоматизации машинного обучения в открытии лекарств

Новый метод измерения точности больших языковых моделей с улучшенным поиском

Meta AI представила LongVU: многомодальную языковую модель для понимания длинных видео.

Новый метод сжатия больших языковых моделей: SliceGPT

Создание интерактивных панелей с помощью Vizro MCP: Открытый инструментарий Python от McKinsey

Rev выпустил новые модели искусственного интеллекта для распознавания речи и диаризации, превосходящие текущие модели.

Оптимизация больших языковых моделей: FFN Fusion от NVIDIA для повышения эффективности вычислений

Защита от атак на подмену информации в системах Retrieval-Augmented Generation (RAG)

Возврат и гарантии

Карта сайта

Вакансии

Редакционная политика

Политика конфиденциальности

Доступность