Открытый агент Augment SWE-bench: инновации в программной инженерии с использованием Claude Sonnet 3.7 и OpenAI O1

Выпуск Augment Code: Подтвержденный Агент SWE-bench

Augment Code представила Augment SWE-bench Verified Agent — открытый агент, который объединяет возможности Claude Sonnet 3.7 от Anthropic и модель O1 от OpenAI для успешного выполнения сложных задач в области программной инженерии.

Проблема оценки ИИ агентов

Инженеры все чаще используют ИИ агентов для эффективного решения сложных задач программирования. Однако важной задачей остается точная оценка их способности справляться с реальными сценариями кодирования, выходящими за рамки упрощенных тестов.

Достижения Augment Code

Агент Augment Code занял первое место в открытых источниках на табло SWE-bench, продемонстрировав впечатляющие результаты. Его успехи объясняются сочетанием сильных сторон двух моделей: Claude Sonnet 3.7, использованной для выполнения задач, и OpenAI O1 для объединения результатов.

Тестирование на SWE-bench

SWE-bench — это строгий тест, который оценивает эффективность ИИ агентов в решении практических задач программной инженерии, основанных на реальных проблемах из GitHub. В отличие от традиционных тестов, SWE-bench требует от агентов взаимодействия с существующими кодовыми базами и создания скриптов.

Результаты и стратегии

Первоначальная попытка Augment Code достигла коэффициента успешности 65.4%, что является значительным достижением. В процессе работы компания исследовала различные стратегии поведения агентов и пришла к интересным выводам о том, что некоторые ожидаемые техники не принесли значительных улучшений производительности.

Ограничения и дальнейшие шаги

Augment Code открыто признает ограничения тестирования SWE-bench, такие как смещение в сторону исправления ошибок и использование только Python. В будущем компания намерена сосредоточиться на оптимизации производительности агентов с использованием методов обучения с подкреплением и собственных данных.

Ключевые выводы

Агент Augment SWE-bench Verified Agent занял первое место среди открытых агентов.
Комбинируются модели Claude Sonnet 3.7 и OpenAI O1.
Достигнут уровень успешности 65.4% на SWE-bench.
Некоторые ожидаемые улучшения не принесли результатов.
Компания признает ограничения теста и стремится к улучшениям.

Практические рекомендации для бизнеса

Рассмотрите, как технологии искусственного интеллекта могут преобразовать ваш подход к работе:

Автоматизируйте процессы, где ИИ может добавить наибольшую ценность.
Определите важные KPI для оценки воздействия ваших инвестиций в ИИ.
Выберите инструменты, соответствующие вашим потребностям.
Начните с небольших проектов и постепенно расширяйте использование ИИ.

Связь с нами

Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подписывайтесь на наш Telegram.

Пример решения с использованием ИИ

Посмотрите на пример решения, основанного на ИИ: продажный бот, предназначенный для автоматизации взаимодействия с клиентами и управления их путешествием по всем этапам.

Изображение Augment Code