Набор задач CORE-Bench из 270 задач на основе 90 научных статей по компьютерным наукам, социальным наукам и медицине с кодом на Python или R.

 CORE-Bench: A Benchmark Consisting of 270 Tasks based on 90 Scientific Papers Across Computer Science, Social Science, and Medicine with Python or R Codebases

Автоматизация воспроизводимости вычислений в научных исследованиях с использованием искусственного интеллекта

Проблема воспроизводимости

В научных исследованиях, включая психологию, экономику, медицину и информатику, воспроизводимость вычислений является значительной проблемой. Недавние исследования выявили серьезные недостатки в этой области, такие как различия в версиях программных библиотек, проблемы совместимости между старыми библиотеками и новым оборудованием, а также вариации результатов. CORE-Bench предлагает решение этой проблемы, представляя собой комплексный бенчмарк, включающий 270 задач из 90 научных статей по информатике, социологии и медицине.

Роль искусственного интеллекта

Искусственный интеллект играет ключевую роль в автоматизации воспроизводимости научных исследований. CORE-Bench оценивает навыки в области программирования, взаимодействия с оболочкой, поиска и использования инструментов. Бенчмарк предлагает задачи как на Python, так и на R, имеет три уровня сложности и позволяет оценить способности агентов к выполнению различных задач.

Преимущества CORE-Bench

CORE-Bench предлагает возможность оценить широкий спектр навыков, необходимых для воспроизводства научных исследований. Задачи бенчмарка требуют от агентов умения понимать инструкции, отлаживать код, извлекать информацию и интерпретировать результаты в различных дисциплинах. Бенчмарк включает как текстовые, так и изображенческие задачи, что обеспечивает всестороннюю оценку способностей агентов к воспроизведению разнообразных научных результатов.

Полезные ссылки: