Новый стандарт SUPER для оценки способности LLM проводить и выполнять исследовательские эксперименты, предложенный исследователями Allen Institute for AI

 Allen Institute for AI Researchers Propose SUPER: A Benchmark for Evaluating the Ability of LLMs to Set Up and Execute Research Experiments

“`html

Искусственный интеллект (ИИ) и машинное обучение (ML) вносят революционные изменения во многие области, но остается значительная проблема в воспроизводимости экспериментов.

Исследователи часто полагаются на ранее опубликованные работы для проверки или расширения своих результатов. Однако настройка репозиториев, конфигурация среды и устранение различных технических проблем требуют много времени и экспертизы.

Проблема воспроизводимости экспериментов

Репозитории часто плохо поддерживаются, что затрудняет воспроизведение экспериментов. Недостаточная документация и устаревший код усложняют запуск экспериментов. Различные платформы и инструменты также добавляют сложности.

Исследователи тратят много времени на установку зависимостей, устранение проблем совместимости и настройку среды для каждого эксперимента.

Автоматизация задач

В связи с развитием ИИ ищутся способы автоматизировать эти задачи для ускорения научных открытий.

Бенчмарк SUPER

Исследователи из Allen Institute for AI и Университета Вашингтона представили бенчмарк SUPER, который оценивает способность LLMs настраивать и выполнять задачи из исследовательских репозиториев.

Бенчмарк включает различные сценарии, имитирующие препятствия, с которыми исследователи регулярно сталкиваются. Он разделен на три набора задач: Expert, Masked и Auto, каждый из которых представляет различные вызовы и оценивает успех выполнения задач.

Ограничения LLMs

Эксперименты показали значительные ограничения текущих моделей LLMs. Лучшая протестированная модель, GPT-4o, успешно решала лишь небольшую часть задач. Открытые модели значительно уступают.

Заключение

Бенчмарк SUPER подчеркивает текущие ограничения LLMs в автоматизации исследовательских задач. Несмотря на последние достижения, существует значительный разрыв между возможностями этих моделей и сложными потребностями исследователей.

Результаты бенчмарка предоставляют ценный ресурс для измерения и улучшения моделей, предлагая путь к разработке более сложных инструментов, которые могли бы полностью поддерживать научные исследования.

Подробнее о работе исследователей читайте на странице MarkTechPost.

Бесплатный вебинар по ИИ

Присоединяйтесь к бесплатному вебинару “SAM 2 для видео: как настроить под свои данные” (ср, 25 сентября, 4:00 – 4:45 EST).

Не забудьте присоединиться к нашему ML SubReddit.

Следите за нами в Twitter, присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn. Если вам нравится наша работа, вам понравится и наша рассылка.

Подробнее о наших решениях и возможностях ИИ узнайте на сайте AI Lab itinai.ru.

“`

Полезные ссылки: