Itinai.com high tech business environment multiple monitors d 512a6664 ad59 4de2 8833 f39e2501c27c 3
Itinai.com high tech business environment multiple monitors d 512a6664 ad59 4de2 8833 f39e2501c27c 3

Эффективность SWE-Bench: 50.8% без использования инструментов для бизнеса

Легче сразу спросить 💭

AI снижает операционные расходы на 20–40% 📊 за 6 месяцев. А что бы вы сделали с этими деньгами?

Опишите задачу — обсудим, как это можно реализовать у вас.

ИИ автоматизирует 70% рутинных задач 🤖 за 3 месяца. Какие процессы в вашем бизнесе скинуть роботу?
Персонализированные AI-кампании увеличивают клиентскую базу на 30% 📈. Как это работает?
AI-аналитика сокращает ошибки в прогнозах на 50% 📉. Расскажите подробнее!

Достижения SWE-Bench: 50.8% без использования инструментов

Недавние достижения в области агентов на основе языковых моделей (LM) продемонстрировали значительный потенциал для автоматизации сложных задач в различных областях, включая программную инженерию, робототехнику и научные эксперименты. Эти агенты обычно работают, предлагая и выполняя действия через API. С увеличением сложности задач, структуры LM-агентов развивались, чтобы включать несколько агентов, многоступенчатый поиск и индивидуальное проектирование для оптимизации производительности.

Стратегии в программной инженерии

Исследования LM-агентов в программной инженерии в основном сосредоточены на двух стратегиях: агентных фреймворках и структурированных конвейерах. Агентные системы, такие как SWE-Agent и OpenHands CodeAct, позволяют LM взаимодействовать с кодовыми базами через пользовательские интерфейсы и инструменты поиска. Другие модели, такие как Moatless и AutoCodeRover, улучшают локализацию с помощью поисковых техник, тогда как SpecRover уточняет проектирование конструкций.

Исследовательские результаты

Исследователи из Стэнфорда, IBM и Университета Торонто изучили необходимость сложного проектирования для LM-агентов, решающих задачи, такие как SWE-bench. Их результаты показывают, что использование длинных контекстных LM (LCLM), таких как Gemini-1.5-Pro, с соответствующим подсказыванием и без конструкции может достичь конкурентоспособной производительности, достигнув 38% на SWE-Bench-Verified. Примечательно, что Gemini-2.5-Pro, используя ту же простую настройку, достигла производительности 50.8%. Это предполагает, что многие сложные агентные конструкции могут быть значительно упрощены.

Агенты в состоянии контекста

Традиционные LM-агенты часто полагаются на интерактивное исследование из-за частичной наблюдаемости. Однако многие задачи, такие как отладка программного обеспечения, позволяют полную наблюдаемость. Исследование предлагает агентов в состоянии контекста, которые используют LCLM для обработки полных или сжатых состояний окружения напрямую, устраняя необходимость в сложном агентном проектировании.

Экспериментальная оценка

Эксперименты оценили упрощенную агентную структуру, используя LLM на SWE-bench Verified, который включает 500 реальных задач программной инженерии. Предложенные методы, такие как DIRECTSOLVE и SELECTSOLVE, использовали LCLM, такие как Gemini-1.5-Pro и Gemini-2.5-Pro, с SELECTSOLVE, который также включал дополнительный SCLM для генерации патчей.

Соображения по затратам

На данный момент стоимость использования методов на основе LCLM выше, чем у существующих подходов, таких как Agentless и CodeAct, в среднем $2.60 за экземпляр по сравнению с $0.25 и $0.87 соответственно. Однако быстрые снижения затрат на вывод и увеличение длины контекста делают LCLM более практичными.

Практические бизнес-решения

Изучите, как технологии искусственного интеллекта могут трансформировать ваш подход к работе. Ищите процессы, которые можно автоматизировать, и моменты в взаимодействиях с клиентами, где искусственный интеллект может добавить наибольшую ценность.

AI Solutions

Дальнейшие шаги

Определите ключевые показатели эффективности (KPI), чтобы убедиться, что ваши инвестиции в ИИ действительно оказывают положительное влияние на бизнес. Выберите инструменты, которые соответствуют вашим потребностям и позволяют вам настраивать их в соответствии с вашими целями. Начните с небольшого проекта, собирайте данные о его эффективности и затем постепенно расширяйте использование ИИ в вашей работе.

Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подписывайтесь на наш Telegram: https://t.me/itinai.

Пример решения на основе ИИ

Посмотрите на практический пример решения на основе ИИ: бот продаж от itinai.ru/aisales, предназначенный для автоматизации общения с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.

Новости в сфере искусственного интеллекта