“`html
Искусственный интеллект (ИИ) и машинное обучение (ML) вносят революционные изменения во многие области, но остается значительная проблема в воспроизводимости экспериментов.
Исследователи часто полагаются на ранее опубликованные работы для проверки или расширения своих результатов. Однако настройка репозиториев, конфигурация среды и устранение различных технических проблем требуют много времени и экспертизы.
Проблема воспроизводимости экспериментов
Репозитории часто плохо поддерживаются, что затрудняет воспроизведение экспериментов. Недостаточная документация и устаревший код усложняют запуск экспериментов. Различные платформы и инструменты также добавляют сложности.
Исследователи тратят много времени на установку зависимостей, устранение проблем совместимости и настройку среды для каждого эксперимента.
Автоматизация задач
В связи с развитием ИИ ищутся способы автоматизировать эти задачи для ускорения научных открытий.
Бенчмарк SUPER
Исследователи из Allen Institute for AI и Университета Вашингтона представили бенчмарк SUPER, который оценивает способность LLMs настраивать и выполнять задачи из исследовательских репозиториев.
Бенчмарк включает различные сценарии, имитирующие препятствия, с которыми исследователи регулярно сталкиваются. Он разделен на три набора задач: Expert, Masked и Auto, каждый из которых представляет различные вызовы и оценивает успех выполнения задач.
Ограничения LLMs
Эксперименты показали значительные ограничения текущих моделей LLMs. Лучшая протестированная модель, GPT-4o, успешно решала лишь небольшую часть задач. Открытые модели значительно уступают.
Заключение
Бенчмарк SUPER подчеркивает текущие ограничения LLMs в автоматизации исследовательских задач. Несмотря на последние достижения, существует значительный разрыв между возможностями этих моделей и сложными потребностями исследователей.
Результаты бенчмарка предоставляют ценный ресурс для измерения и улучшения моделей, предлагая путь к разработке более сложных инструментов, которые могли бы полностью поддерживать научные исследования.
Подробнее о работе исследователей читайте на странице MarkTechPost.
Бесплатный вебинар по ИИ
Присоединяйтесь к бесплатному вебинару “SAM 2 для видео: как настроить под свои данные” (ср, 25 сентября, 4:00 – 4:45 EST).
Не забудьте присоединиться к нашему ML SubReddit.
Следите за нами в Twitter, присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn. Если вам нравится наша работа, вам понравится и наша рассылка.
Подробнее о наших решениях и возможностях ИИ узнайте на сайте AI Lab itinai.ru.
“`