Автоматизация воспроизводимости вычислений в научных исследованиях с использованием искусственного интеллекта
Проблема воспроизводимости
В научных исследованиях, включая психологию, экономику, медицину и информатику, воспроизводимость вычислений является значительной проблемой. Недавние исследования выявили серьезные недостатки в этой области, такие как различия в версиях программных библиотек, проблемы совместимости между старыми библиотеками и новым оборудованием, а также вариации результатов. CORE-Bench предлагает решение этой проблемы, представляя собой комплексный бенчмарк, включающий 270 задач из 90 научных статей по информатике, социологии и медицине.
Роль искусственного интеллекта
Искусственный интеллект играет ключевую роль в автоматизации воспроизводимости научных исследований. CORE-Bench оценивает навыки в области программирования, взаимодействия с оболочкой, поиска и использования инструментов. Бенчмарк предлагает задачи как на Python, так и на R, имеет три уровня сложности и позволяет оценить способности агентов к выполнению различных задач.
Преимущества CORE-Bench
CORE-Bench предлагает возможность оценить широкий спектр навыков, необходимых для воспроизводства научных исследований. Задачи бенчмарка требуют от агентов умения понимать инструкции, отлаживать код, извлекать информацию и интерпретировать результаты в различных дисциплинах. Бенчмарк включает как текстовые, так и изображенческие задачи, что обеспечивает всестороннюю оценку способностей агентов к воспроизведению разнообразных научных результатов.