Риски воздействия на ИИ в здравоохранении: выявление и предотвращение возможных манипуляций.

 Safeguarding Healthcare AI: Exposing and Addressing LLM Manipulation Risks

“`html

Большие языковые модели (LLM) в медицине: уязвимости и защита

Большие языковые модели (LLM) типа ChatGPT и GPT-4 сделали значительные шаги в исследованиях искусственного интеллекта, превзойдя предыдущие передовые методы по различным показателям. Эти модели обладают большим потенциалом в области здравоохранения, предлагая передовые инструменты для повышения эффективности через понимание и обработку естественного языка. Однако интеграция LLM в биомедицинские и медицинские приложения сталкивается с критическим вызовом: их уязвимость к злонамеренным воздействиям. Даже коммерчески доступные LLM с встроенными защитными механизмами могут быть обмануты для генерации вредных результатов. Эта уязвимость представляет значительные риски, особенно в медицинских средах, где ставки высоки. Проблема дополнительно усугубляется возможностью отравления данных во время настройки модели, что может привести к тонким изменениям в поведении LLM, которые трудно обнаружить в обычных условиях, но проявляются при определенных входных данных.

Исследование уязвимостей LLM в медицинских задачах

В данной работе исследователи из Национального центра биотехнологической информации (NCBI), Национальной библиотеки медицины (NLM) и Университета Мэриленда в Колледж-Парке, кафедры компьютерных наук, планируют исследовать два вида атак на LLM в рамках трех медицинских задач, сосредотачиваясь на методах настройки и атаках на основе подсказок для атаки стандартных LLM. В работе используются реальные данные пациентов из баз данных MIMIC-III и PMC-Patients для генерации стандартных и атакующих ответов. Исследование рассматривает поведение LLM, включая собственный GPT-3.5-turbo и открытый Llama2-7b, на трех представительных медицинских задачах: руководство по вакцинации от COVID-19, назначение лекарств и рекомендации диагностических тестов. Целью атак в этих задачах является отговорить от вакцинации, предложить вредные комбинации лекарств и рекомендовать ненужные медицинские тесты. Исследование также оценивает возможность передачи моделей атаки, обученных на данных MIMIC-III, к реальным пациентским резюме из PMC-Patients, предоставляя всесторонний анализ уязвимостей LLM в медицинских средах.

Экспериментальные результаты и выводы

Экспериментальные результаты показывают значительные уязвимости LLM к атакам через манипуляцию подсказками и настройку модели с отравленными обучающими данными. Используя наборы данных MIMIC-III и PMC-Patients, исследователи обнаружили существенные изменения в выводах модели в рамках трех медицинских задач при проведении этих атак. Например, при атаках на основе подсказок рекомендации по вакцинации резко снизились с 74,13% до 2,49%, в то время как рекомендации опасных комбинаций лекарств увеличились с 0,50% до 80,60%. Подобные тенденции были замечены и для рекомендаций ненужных диагностических тестов.

Также были обнаружены сопоставимые уязвимости у тонко настроенных моделей, причем как GPT-3.5-turbo, так и Llama2-7b проявили значительные сдвиги в сторону злонамеренного поведения при обучении на атакующих данных. Исследование также продемонстрировало возможность передачи этих атак между различными источниками данных. Особенно стоит отметить, что GPT-3.5-turbo проявил большую устойчивость к атакам по сравнению с Llama2-7b, возможно, благодаря своим обширным знаниям. Исследователи обнаружили, что эффективность атак в целом увеличивается с увеличением доли атакующих образцов в обучающих данных, достигая точек насыщения на разных уровнях для различных задач и моделей.

Заключение и рекомендации

Данное исследование предоставляет всесторонний анализ уязвимостей LLM к атакам в медицинских контекстах, демонстрируя, что как открытые, так и коммерческие модели подвержены риску. Исследование показывает, что хотя атакующие данные не оказывают значительного влияния на общую производительность модели в медицинских задачах, для сложных сценариев требуется более высокая концентрация атакующих образцов для достижения точки насыщения по сравнению с задачами общего назначения. Отличительные образцы весов, обнаруженные в тонко настроенных отравленных моделях по сравнению с чистыми моделями, предлагают потенциальные стратегии защиты. Эти результаты подчеркивают критическую необходимость внедрения продвинутых протоколов безопасности при использовании LLM, особенно поскольку эти модели все чаще интегрируются в процессы автоматизации здравоохранения. Исследование подчеркивает важность внедрения надежных механизмов защиты для обеспечения безопасного и эффективного применения LLM в критических секторах, таких как здравоохранение, где последствия манипулированных выводов могут быть серьезными.

Посмотреть статью можно здесь. Вся заслуга за это исследование принадлежит его ученым. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.

Если вам понравилась наша работа, вам понравится и наша рассылка.

Не забудьте присоединиться к нашему сообществу в Reddit.

Статья опубликована на портале MarkTechPost.

“`

Полезные ссылки: