AWS представляет SWE-PolyBench: новый многопользовательский бенчмарк для оценки AI-агентов программирования

Введение SWE-PolyBench от AWS

AWS AI Labs представила SWE-PolyBench — новый открытый многоязычный бенчмарк для оценки AI-кодирующих агентов. Этот инструмент решает проблемы, связанные с ограниченной оценкой существующих систем, которые часто основываются на узкоспециализированных бенчмарках, в основном на Python.

Обширная оценка с помощью SWE-PolyBench

SWE-PolyBench охватывает 21 репозиторий на GitHub и поддерживает четыре популярных языка программирования: Java, JavaScript, TypeScript и Python. Он включает 2,110 задач, таких как исправление ошибок, реализация функций и рефакторинг кода.

Техническая структура и метрики оценки

SWE-PolyBench использует оценку на основе выполнения. Каждая задача включает снимок репозитория и описание проблемы, основанное на GitHub. Система применяет соответствующий патч в контейнеризованной тестовой среде, настраиваемой для каждого языка. Результаты измеряются с использованием двух типов юнит-тестов: fail-to-pass (F2P) и pass-to-pass (P2P).

Эмпирическая оценка и наблюдения

Три открытых кодирующих агента — Aider, SWE-Agent и Agentless — были адаптированы для SWE-PolyBench. Оценка показала значительные различия в производительности в зависимости от языка и типа задач.

Заключение: к надежной оценке AI-кодирующих агентов

SWE-PolyBench предлагает надежную и детализированную оценку кодирующих агентов, поддерживая множество языков программирования и широкий спектр типов задач. Это создает основу для будущих исследований, направленных на улучшение универсальности и устойчивости AI-ассистентов в программировании.

AI Technology Image

Практические бизнес-решения

Изучите, какие процессы можно автоматизировать, и найдите моменты в взаимодействии с клиентами, где искусственный интеллект может добавить наибольшую ценность.

Определите ключевые показатели эффективности (KPI), чтобы убедиться, что ваши инвестиции в AI действительно положительно влияют на бизнес.

Выберите инструменты, которые соответствуют вашим потребностям и позволяют настраивать их под ваши цели.

Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование AI в вашей работе.

Контакты и примеры решений

Если вам нужна помощь в управлении AI в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей AI, подписывайтесь на наш Telegram.

Посмотрите практический пример решения на базе AI: продажный бот, предназначенный для автоматизации общения с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.

Новости в сфере искусственного интеллекта