✅ Salesforce Research представляет INDICT: инновационный фреймворк для улучшения безопасности и полезности кода, созданного с помощью искусственного интеллекта на различных языках программирования

«`html

Преобразование разработки программного обеспечения с помощью искусственного интеллекта

Возможность автоматизации и помощи в написании кода имеет потенциал преобразить разработку программного обеспечения, делая ее быстрой и эффективной. Однако обеспечение создания полезного и безопасного кода моделями искусственного интеллекта представляет собой вызов. Критически важно обеспечить сложный баланс между функциональностью и безопасностью, особенно когда сгенерированный код может быть злоупотреблен.

Проблемы и решения

В практических применениях большая часть языковых моделей с ограниченной памятью (LLM) часто сталкивается с трудностями при работе с неоднозначными или злонамеренными инструкциями. Эти модели могут генерировать код, который случайно содержит уязвимости безопасности или облегчает вредоносные атаки. Проблема эта не только теоретическая; исследования в реальном мире показали значительные риски. Например, исследование Copilot на GitHub показало, что около 40% сгенерированных программ содержали уязвимости. Смягчение этих рисков необходимо для полного освоения потенциала LLM в написании кода при сохранении безопасности.

Текущие методы смягчения этих рисков включают настройку LLM с наборами данных, сфокусированными на безопасности, и внедрение детекторов на основе правил для выявления небезопасных шаблонов кода. Хотя настройка полезна, она часто оказывается недостаточной против высокоуровневых атак. Создание качественных данных, связанных с безопасностью для настройки, может быть затратным и ресурсоемким процессом, требующим участия экспертов с глубокими знаниями в программировании и кибербезопасности. Хотя эффективные, системы на основе правил могут не охватывать все возможные уязвимости, оставляя пробелы, которые могут быть использованы.

Решение от Salesforce Research: INDICT

Исследователи из Salesforce Research представили новую концепцию под названием INDICT. Этот фреймворк разработан для улучшения безопасности и полезности кода, сгенерированного LLM. INDICT использует уникальный механизм, включающий внутренние диалоги между двумя критиками: один фокусируется на безопасности, а другой на полезности. Эта двойная система критиков позволяет модели получать всестороннюю обратную связь, позволяя ей итеративно улучшать свой вывод. Критики оборудованы внешними источниками знаний, такими как соответствующие фрагменты кода и инструменты, такие как веб-поиск и интерпретаторы кода, для предоставления более информированных и эффективных критик.

Фреймворк INDICT работает через два основных этапа: предупредительную и постфактумную обратную связь. Во время предупредительной стадии критик, ориентированный на безопасность, оценивает потенциальные риски генерации кода. В то же время критик, ориентированный на полезность, гарантирует, что код соответствует требованиям задачи. Этот этап включает запросы внешних источников знаний для дополнения оценок критиков. Постфактумный этап рассматривает сгенерированный код после его выполнения, позволяя критикам предоставлять дополнительную обратную связь на основе наблюдаемых результатов. Этот двухэтапный подход обеспечивает модель антиципировать потенциальные проблемы и учиться на результатах выполнения для улучшения будущих выводов.

Оценка INDICT включала тестирование на восьми различных задачах по восьми языкам программирования с использованием LLM от 7 миллиардов до 70 миллиардов параметров. Результаты продемонстрировали значительные улучшения как в показателях безопасности, так и полезности. В частности, фреймворк достиг 10% абсолютного улучшения качества кода на всех протестированных моделях. Например, в бенчмарке CyberSecEval-1 INDICT улучшил безопасность сгенерированного кода до 30%, при этом показатели безопасности указывают, что более 90% выводов были безопасными. Метрика полезности также показала значительные улучшения, при этом модели, улучшенные INDICT, превзошли современные базовые уровни до 70%.

Успех INDICT заключается в способности предоставлять детальные, контекстно-ориентированные критики, направляющие LLM на производство более качественного кода. Фреймворк обеспечивает создание безопасного и функционального кода, интегрируя обратную связь по безопасности и полезности. Такой подход предлагает более надежное решение для вызовов генерации кода LLM.

Заключение

INDICT представляет собой прорывный фреймворк для улучшения безопасности и полезности кода, сгенерированного LLM. INDICT решает критически важный баланс между функциональностью и безопасностью в генерации кода, используя двойную систему критиков и внешние источники знаний. Впечатляющая производительность фреймворка на нескольких бенчмарках и языках программирования подчеркивает его потенциал для установления новых стандартов ответственного использования ИИ в программировании.

Подробнее о работе исследователей можно узнать в статье. Все заслуги за это исследование принадлежат исследователям проекта.

Присоединяйтесь к нашему Телеграм-каналу и группе в LinkedIn.

Если вам понравилась наша работа, вам понравится и наша рассылка.

Не забывайте присоединиться к нашему ML SubReddit.

Оригинальная статья: Salesforce Research Introduces INDICT: A Groundbreaking Framework Enhancing the Safety and Helpfulness of AI-Generated Code Across Diverse Programming Languages.

«`

Преобразование разработки программного обеспечения с помощью искусственного интеллекта

Проблемы и решения

Решение от Salesforce Research: INDICT

Заключение

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Запустите свой ИИ проект бесплатно

Как вести Telegram-канал с юмором и зарабатывать

AI в нише животных — бизнес для зоомагазина и блогера

Монетизация канала о фрилансе и удалённой работе

Монетизация блога про уход за кожей

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Агент по управлению заявками : автоматизация обработки тикетов

ИИ-Аналитик конкурентов : мониторинг цен и позиционирования

ИИ-Специалист по автоматизации бухгалтерии : обработка счетов и налоговых деклараций

ИИ-Агент по обработке клиентских запросов : автоматизация поддержки и анализа диалогов

Как построить диаграмму “As-Is/To-Be” бизнес-процесса: ИИ опишет текущее состояние и предложит оптимизацию

Как описать правила валидации данных: ИИ предложит список проверок по каждому полю

Как вести чек-лист открытия и закрытия смены: искусственный интеллект подскажет, что не забыть при открытии и закрытии магазина

Как проверить условия оферты на соответствие законодательству: ИИ подскажет 5 ключевых ошибок

Как оформить табель учёта рабочего времени: искусственный интеллект подскажет, как правильно учитывать опоздания и больничные

Как описать баг для передачи в разработку: ИИ сформирует краткое и полное описание ошибки

Лучший ИИ онлайн

Создание интерактивной панели Dash и Plotly с механизмами обратных вызовов для локального и онлайн-развертывания

Команда Red Team для ИИ: Укрепление безопасности и доверия через внешнюю оценку

Искусственный интеллект для обработки речи: как LLMs выполняют инструкции на естественном языке

NotebookLM добавляет интеграцию с аудио и YouTube для улучшения обмена аудио-презентациями.

ToolHop: Новый набор данных для оценки LLM в сценариях многократного использования инструментов

СОЛАР: как усовершенствовать sDPO Upstage AI, согласуя языковые модели с человеческими ценностями.

Фреймворк Together AI объединяет силы нескольких LLM для улучшения качества AI.

Оптимизация обучения трансформеров с DeepSpeed: Эффективные техники и практические примеры

FAQ

Авторские права

О нас

Куки-политика

Редакционная политика

Условия использования