✅ SWE-Perf: Первый бенчмарк для оптимизации производительности кода в хранилищах

Введение в SWE-Perf

В мире программирования и разработки ПО оптимизация производительности кода становится все более актуальной задачей. Исследователи TikTok представили SWE-Perf — первый бенчмарк, который сосредоточен на оптимизации производительности кода на уровне репозиториев. Это важный шаг вперед, который позволяет разработчикам лучше понимать, как искусственный интеллект может помочь в улучшении производительности кода.

Почему важен SWE-Perf?

Современные кодовые базы часто представляют собой сложные системы, состоящие из множества модулей, которые взаимодействуют друг с другом. Оптимизация таких кодов требует глубокого понимания их структуры и взаимодействий. SWE-Perf нацелен на решение этой проблемы, предоставляя разработчикам инструменты для оценки и улучшения производительности кода в реальных условиях.

Как работает SWE-Perf?

SWE-Perf был создан на основе более чем 100,000 запросов на изменение кода из известных репозиториев на GitHub. Он включает в себя:

140 тщательно подобранных примеров с измеримыми и стабильными улучшениями производительности.
Полные кодовые базы до и после оптимизации.
Функции, классифицированные как «орден» (уровень файла) или «реалистичный» (уровень репозитория).
Юнит-тесты и среды Docker для воспроизводимого выполнения и измерения производительности.
Патчи, написанные экспертами, использованные в качестве эталонов.

Метрики оценки

Для оценки производительности SWE-Perf использует трехуровневую структуру:

Применимость: Можем ли мы без проблем применить созданный патч?
Корректность: Сохраняет ли патч функциональную целостность (все юнит-тесты проходят)?
Производительность: Дает ли патч измеримое улучшение времени выполнения?

Экспериментальные результаты

В ходе тестирования различных моделей LLM были получены интересные результаты. Например, модель Claude-4-opus показала 1.28% улучшение в «орденном» режиме, в то время как экспертные патчи достигли 10.85% улучшения. Эти данные подчеркивают разрыв между текущими возможностями ИИ и человеческим опытом в области оптимизации кода.

Ключевые наблюдения

Важно отметить, что использование агентных фреймворков, таких как OpenHands, более эффективно для сложных многошаговых оптимизаций. Однако LLM все еще испытывают трудности с масштабированием на более широкие области оптимизации.

Заключение

SWE-Perf представляет собой важный инструмент для оценки и улучшения возможностей оптимизации производительности LLM в реальных рабочих процессах программирования. Он открывает новые горизонты для исследований в области оптимизации кода и помогает разработчикам принимать более обоснованные решения.