✅ Датасет LEAN-GitHub для развития автоматического доказательства теорем

«`html

Решения для автоматического доказательства теорем (ATP)

Проблемы и текущие подходы

В математике возникают сложности в доказательстве теорем из-за увеличивающейся сложности доказательств. Системы Lean, Isabelle и Coq предоставляют компьютерно проверяемые доказательства, но их создание требует значительных усилий. Использование больших языковых моделей (LLM) обещает решение проблем на уровне старшей школы с использованием помощников в доказательствах, однако их производительность все еще нуждается в улучшении из-за недостатка данных. Формальные языки требуют значительной экспертизы, что приводит к ограниченности корпусов. В отличие от обычных языков программирования, формальные языки доказательств содержат скрытую промежуточную информацию, что делает сырые языковые корпуса непригодными для обучения. Несмотря на это, существуют ценные человечески написанные корпуса. Усилия по автоформализации, хотя и полезны, не могут полностью заменить человечески созданные данные по качеству и разнообразию.

Существующие подходы к решению задач доказательства теорем

Современные помощники в доказательствах, такие как Coq, Isabelle и Lean, расширили формальные системы за пределы логики первого порядка, вызвав интерес к автоматизированному доказательству теорем (ATP). Недавняя интеграция больших языковых моделей дополнительно продвинула эту область. Ранние подходы к ATP использовали традиционные методы, такие как KNN или GNN, а некоторые прибегали к обучению с подкреплением. Недавние усилия используют глубокие методы на основе трансформеров и рассматривают теоремы как обычный текст. Многие системы на основе обучения (например, GPT-f, PACT, Llemma) обучают языковые модели на парах (состояние доказательства, следующий тактический шаг) и используют дерево поиска для доказательства теорем. Альтернативные подходы включают LLM, которые генерируют полные доказательства независимо или на основе доказательств, предоставленных людьми. Инструменты для извлечения данных являются ключевыми для ATP, захватывая промежуточные состояния, невидимые в коде, но видимые во время выполнения. Существуют инструменты для различных помощников в доказательствах, но инструменты Lean 4 сталкиваются с проблемами в массовом извлечении из-за ограничений однопроектного дизайна.

Новый подход к созданию большой датасеты

Исследователи из Китайского университета Гонконга предложили LEAN-GitHub, грандиозный датасет Lean, дополняющий широко используемый набор данных Mathlib. Этот инновационный подход предоставляет репозитории Lean с открытым исходным кодом на GitHub, значительно расширяя доступные данные для обучения моделей доказательства теорем. Исследователи разработали масштабируемый конвейер для увеличения эффективности извлечения и параллелизма, позволяющий использовать ценные данные из ранее нескомпилированных и неизвлеченных корпусов Lean.

Процесс создания датасета LEAN-GitHub

Процесс создания датасета включал несколько ключевых этапов и инноваций:

Выбор репозиториев: Идентификация 237 репозиториев Lean 4 на GitHub, из которых после отбора осталось 147. Только 61 из них могли быть скомпилированы без изменений.
Преодоление проблем компиляции: Разработка автоматизированных скриптов для поиска ближайших официальных версий проектов, использующих неофициальные версии Lean 4.
Компиляция исходного кода: Использование компилятора Leanc вместо инструмента Lake для компиляции непригодных проектов и изолированных файлов.
Процесс извлечения: Реализация извлечения данных для изолированных файлов и перестройка реализации для увеличения параллелизма.

В итоге было успешно извлечено 6 352 файлов и 42 000 теорем, что привело к окончательному датасету, содержащему 2 133 файла и 28 000 теорем с информацией о тактиках.

Результаты и преимущества датасета LEAN-GitHub

Результатом стала разнообразная коллекция математических областей, включая логику, логику первого порядка, теорию матроида и арифметику. По сравнению с существующими наборами данных, LEAN-GitHub предлагает уникальную комбинацию контента, промежуточных состояний и различных уровней сложности, что делает его ценным ресурсом для развития автоматизированного доказательства теорем и формальной математики.

Эффективность обучения моделей на датасете LEAN-GitHub

Модели, обученные на датасете LEAN-GitHub, демонстрируют впечатляющую способность к формальному рассуждению и достигают передовой производительности на различных бенчмарках, отражающих различные уровни сложности математики. Это подчеркивает эффективность датасета в обучении передовых моделей доказательства теорем и формальной математики.