Выпуск Augment Code: Подтвержденный Агент SWE-bench
Augment Code представила Augment SWE-bench Verified Agent — открытый агент, который объединяет возможности Claude Sonnet 3.7 от Anthropic и модель O1 от OpenAI для успешного выполнения сложных задач в области программной инженерии.
Проблема оценки ИИ агентов
Инженеры все чаще используют ИИ агентов для эффективного решения сложных задач программирования. Однако важной задачей остается точная оценка их способности справляться с реальными сценариями кодирования, выходящими за рамки упрощенных тестов.
Достижения Augment Code
Агент Augment Code занял первое место в открытых источниках на табло SWE-bench, продемонстрировав впечатляющие результаты. Его успехи объясняются сочетанием сильных сторон двух моделей: Claude Sonnet 3.7, использованной для выполнения задач, и OpenAI O1 для объединения результатов.
Тестирование на SWE-bench
SWE-bench — это строгий тест, который оценивает эффективность ИИ агентов в решении практических задач программной инженерии, основанных на реальных проблемах из GitHub. В отличие от традиционных тестов, SWE-bench требует от агентов взаимодействия с существующими кодовыми базами и создания скриптов.
Результаты и стратегии
Первоначальная попытка Augment Code достигла коэффициента успешности 65.4%, что является значительным достижением. В процессе работы компания исследовала различные стратегии поведения агентов и пришла к интересным выводам о том, что некоторые ожидаемые техники не принесли значительных улучшений производительности.
Ограничения и дальнейшие шаги
Augment Code открыто признает ограничения тестирования SWE-bench, такие как смещение в сторону исправления ошибок и использование только Python. В будущем компания намерена сосредоточиться на оптимизации производительности агентов с использованием методов обучения с подкреплением и собственных данных.
Ключевые выводы
- Агент Augment SWE-bench Verified Agent занял первое место среди открытых агентов.
- Комбинируются модели Claude Sonnet 3.7 и OpenAI O1.
- Достигнут уровень успешности 65.4% на SWE-bench.
- Некоторые ожидаемые улучшения не принесли результатов.
- Компания признает ограничения теста и стремится к улучшениям.
Практические рекомендации для бизнеса
Рассмотрите, как технологии искусственного интеллекта могут преобразовать ваш подход к работе:
- Автоматизируйте процессы, где ИИ может добавить наибольшую ценность.
- Определите важные KPI для оценки воздействия ваших инвестиций в ИИ.
- Выберите инструменты, соответствующие вашим потребностям.
- Начните с небольших проектов и постепенно расширяйте использование ИИ.
Связь с нами
Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подписывайтесь на наш Telegram.
Пример решения с использованием ИИ
Посмотрите на пример решения, основанного на ИИ: продажный бот, предназначенный для автоматизации взаимодействия с клиентами и управления их путешествием по всем этапам.