DeepSeek-Prover-V1.5: Языковая модель с 7 миллиардами параметров, превосходящая все открытые модели в формальном доказательстве теорем в Lean 4

 DeepSeek-AI Open-Sources DeepSeek-Prover-V1.5: A Language Model with 7 Billion Parameters that Outperforms all Open-Source Models in Formal Theorem Proving in Lean 4

“`html

DeepSeek-Prover-V1.5: Новый уровень в формальном доказательстве теорем

Большие языковые модели (LLM) сделали значительные успехи в математическом рассуждении и доказательстве теорем, однако они сталкиваются с серьезными проблемами в формальном доказательстве теорем с использованием систем Lean и Isabelle. Эти системы требуют строгих выводов, соответствующих строгим формальным спецификациям, что создает трудности даже для продвинутых моделей, таких как GPT-4.

Решение DeepSeek-AI: DeepSeek-Prover-V1.5

DeepSeek-Prover-V1.5 представляет собой объединенный подход, который комбинирует преимущества техник генерации шагов доказательства и целого доказательства через мощный механизм обрезки и возобновления. Этот метод начинается с генерации целого доказательства, где языковая модель создает полный код доказательства на основе утверждения теоремы. Затем Lean-проверяющий проверяет этот код. Если обнаружена ошибка, код обрезается до первого сообщения об ошибке, и успешно сгенерированная часть служит подсказкой для следующего сегмента доказательства.

Вклад и результаты

Это исследование представляет следующие вклады:

  • Улучшенная базовая модель с дополнительным обучением по математике и коду, с акцентом на формальных языках, таких как Lean, Isabelle и Metamath.
  • Улучшенный набор данных для завершения кода Lean 4 через две техники аугментации данных.
  • Применение алгоритма GRPO для обучения с подкреплением от обратной связи доказательного ассистента.
  • Усовершенствованный метод поиска дерева Monte-Carlo с механизмом обрезки и возобновления и алгоритмом RMaxTS.

Результаты DeepSeek-Prover-V1.5

DeepSeek-Prover-V1.5 демонстрирует значительные преимущества в формальном доказательстве теорем на различных бенчмарках. На наборе данных miniF2F-test DeepSeek-Prover-V1.5-RL достиг 60,2% успешных доказательств в однопроходной генерации целого доказательства, что на 10,2 процентных пункта превышает предыдущий результат. Также он превзошел предыдущий лучший результат с значительно меньшим количеством попыток. На наборе данных ProofNet DeepSeek-Prover-V1.5-RL достиг процентов успешных доказательств 22,6% и 25,3% в однопроходной и RMaxTS-усовершенствованных настройках соответственно, превзойдя существующие методы.

Перспективы

DeepSeek-Prover-V1.5, 7-миллиардная языковая модель, устанавливает новые стандарты в формальном доказательстве теорем с использованием Lean 4. Эта рамка устанавливает пайплайн, аналогичный AlphaZero, для формального доказательства теорем, используя итерацию экспертов и синтетические данные.

Подробнее ознакомьтесь с статьей и GitHub.

Все заслуги за это исследование принадлежат исследователям этого проекта. Также не забудьте подписаться на наш Twitter и присоединиться к нашей Telegram-группе и LinkedIn-группе. Если вам нравится наша работа, вам понравится наш рассылка.

Не забудьте присоединиться к нашему сообществу Reddit.

Найдите предстоящие вебинары по ИИ здесь.


“`

Полезные ссылки: