Новый стандарт для оценки больших языковых моделей на реальных задачах программирования: BigCodeBench от BigCode

 Meet BigCodeBench by BigCode: The New Gold Standard for Evaluating Large Language Models on Real-World Coding Tasks

“`html

BigCodeBench: Новый стандарт для оценки больших языковых моделей на практических задачах программирования

BigCode, ведущая компания в разработке больших языковых моделей (LLM), объявила о выпуске BigCodeBench, нового бенчмарка, предназначенного для тщательной оценки программных возможностей LLM на практических и сложных задачах.

Преодоление ограничений существующих бенчмарков

Существующие бенчмарки, такие как HumanEval, имели решающее значение при оценке LLM по задачам генерации кода, но они критикуются за свою простоту и недостаток применимости к реальным ситуациям. BigCodeBench разработан для заполнения этой ниши.

Компоненты и возможности

BigCodeBench разделен на две основные части: BigCodeBench-Complete и BigCodeBench-Instruct. BigCodeBench-Complete фокусируется на завершении кода, где LLM должны завершить реализацию функции на основе подробных инструкций docstring. BigCodeBench-Instruct, напротив, предназначен для оценки LLM, настроенных на инструкции, которые следуют естественно-языковым инструкциям.

Фреймворк оценки и таблица лидеров

Для упрощения процесса оценки BigCode предоставила удобный фреймворк, доступный через PyPI, с подробными инструкциями по настройке и предварительно собранными образами Docker для генерации и выполнения кода. Производительность моделей на BigCodeBench измеряется с использованием калиброванной метрики Pass@1, рейтинговая система Elo используется для ранжирования моделей.

Вовлечение сообщества и будущие разработки

BigCode призывает сообщество искусственного интеллекта взаимодействовать с BigCodeBench, предоставляя обратную связь и внося свой вклад в его развитие. Все артефакты, связанные с BigCodeBench, включая задачи, тестовые случаи и фреймворк оценки, являются открытыми и доступны на платформах, таких как GitHub и Hugging Face.

Заключение

Выпуск BigCodeBench является значительным событием в оценке LLM для программных задач, позволяя продвигать границы того, что могут достичь эти модели, и тем самым стимулируя развитие области искусственного интеллекта в разработке программного обеспечения.

Оцените нашу работу, ознакомьтесь с нашими новостями и применяйте ИИ-решения от AI Lab itinai.ru, потому что будущее уже здесь!

“`

Полезные ссылки: