DeepSeek-Prover-V1.5: Языковая модель с 7 миллиардами параметров, превосходящая все открытые модели в формальном доказательстве теорем в Lean 4

Itinai.com it company office background blured chaos 50 v 774f6708 277e 48b0 88cb 567652104bfb 3

«`html

DeepSeek-Prover-V1.5: Новый уровень в формальном доказательстве теорем

Большие языковые модели (LLM) сделали значительные успехи в математическом рассуждении и доказательстве теорем, однако они сталкиваются с серьезными проблемами в формальном доказательстве теорем с использованием систем Lean и Isabelle. Эти системы требуют строгих выводов, соответствующих строгим формальным спецификациям, что создает трудности даже для продвинутых моделей, таких как GPT-4.

Решение DeepSeek-AI: DeepSeek-Prover-V1.5

DeepSeek-Prover-V1.5 представляет собой объединенный подход, который комбинирует преимущества техник генерации шагов доказательства и целого доказательства через мощный механизм обрезки и возобновления. Этот метод начинается с генерации целого доказательства, где языковая модель создает полный код доказательства на основе утверждения теоремы. Затем Lean-проверяющий проверяет этот код. Если обнаружена ошибка, код обрезается до первого сообщения об ошибке, и успешно сгенерированная часть служит подсказкой для следующего сегмента доказательства.

Вклад и результаты

Это исследование представляет следующие вклады:

Улучшенная базовая модель с дополнительным обучением по математике и коду, с акцентом на формальных языках, таких как Lean, Isabelle и Metamath.
Улучшенный набор данных для завершения кода Lean 4 через две техники аугментации данных.
Применение алгоритма GRPO для обучения с подкреплением от обратной связи доказательного ассистента.
Усовершенствованный метод поиска дерева Monte-Carlo с механизмом обрезки и возобновления и алгоритмом RMaxTS.

Результаты DeepSeek-Prover-V1.5

DeepSeek-Prover-V1.5 демонстрирует значительные преимущества в формальном доказательстве теорем на различных бенчмарках. На наборе данных miniF2F-test DeepSeek-Prover-V1.5-RL достиг 60,2% успешных доказательств в однопроходной генерации целого доказательства, что на 10,2 процентных пункта превышает предыдущий результат. Также он превзошел предыдущий лучший результат с значительно меньшим количеством попыток. На наборе данных ProofNet DeepSeek-Prover-V1.5-RL достиг процентов успешных доказательств 22,6% и 25,3% в однопроходной и RMaxTS-усовершенствованных настройках соответственно, превзойдя существующие методы.

Перспективы

DeepSeek-Prover-V1.5, 7-миллиардная языковая модель, устанавливает новые стандарты в формальном доказательстве теорем с использованием Lean 4. Эта рамка устанавливает пайплайн, аналогичный AlphaZero, для формального доказательства теорем, используя итерацию экспертов и синтетические данные.

Подробнее ознакомьтесь с статьей и GitHub.

Все заслуги за это исследование принадлежат исследователям этого проекта. Также не забудьте подписаться на наш Twitter и присоединиться к нашей Telegram-группе и LinkedIn-группе. Если вам нравится наша работа, вам понравится наш рассылка.

Не забудьте присоединиться к нашему сообществу Reddit.

Найдите предстоящие вебинары по ИИ здесь.

«`