ThinkPRM: Генеративные Модели Наград Процессов для Масштабируемой Проверки Рассуждений
Использование больших языковых моделей (LLMs) для рассуждений может быть улучшено за счет применения высококачественных моделей наград процессов (PRMs), которые помогают выбирать перспективные пути для поиска или ранжирования. PRMs оценивают пары “проблема-решение”, указывая на правильность решения, и реализуются в виде дискриминативных классификаторов. Однако такие модели требуют значительных ресурсов, включая аннотации от людей и сложные вычисления. Подходы, основанные на LLM как судье, предлагают преимущества в эффективности данных и интерпретируемости, но показывают низкие результаты по сравнению со специализированными моделями наград для сложных задач рассуждений.
Проблемы и Решения
Исследования по решению задач проверки процессов следуют трем основным направлениям. Дискриминативные PRMs работают как классификаторы, предсказывая числовые оценки правильности для каждого шага рассуждения, что требует обширных аннотаций. Генеративные PRMs рассматривают проверку как задачу генерации языка, производя решения о правильности в виде естественных языковых токенов. Эти модели вычисляют оценки правильности через условные вероятности токенов, что делает их интерпретируемыми и масштабируемыми.
Предложение THINKPRM
Исследователи из Университета Мичигана, Mila, LG AI Research и Университета Иллинойс в Урбана-Шампейн предложили THINKPRM, верификатор длинной цепочки рассуждений, который требует значительно меньше аннотаций процессов по сравнению с дискриминативными PRMs. Он использует внутренние способности рассуждений длинных моделей CoT, чтобы превзойти как LLM как судью, так и дискриминативные верификаторы, используя всего 1% аннотаций процессов из PRM800K на нескольких сложных тестах.
Эффективность THINKPRM
THINKPRM был оценен по сравнению с DiscPRM, той же базовой моделью, дообученной с использованием бинарной кросс-энтропии на всем наборе данных PRM800K, содержащем 712K аннотаций процессов. Результаты показывают, что THINKPRM достигает более высокой или сопоставимой точности рассуждений по сравнению с DiscPRM на всех бюджетах выборки.
Заключение
В заключение, исследователи представили THINKPRM, генеративную модель наград процессов, обученную с минимальным контролем на синтетических данных, что позволяет эффективно и масштабируемо проверять пошаговые рассуждения. THINKPRM также превосходит дискриминативные PRMs, обученные с гораздо большим количеством аннотаций, подчеркивая преимущества использования генеративных языковых моделей для интерпретируемости, масштабируемости и эффективности данных.
Практические Решения для Бизнеса
Изучите, как технологии искусственного интеллекта могут изменить ваш подход к работе, например, с помощью ThinkPRM. Найдите процессы, которые можно автоматизировать, и моменты в взаимодействии с клиентами, где ИИ может добавить наибольшую ценность. Определите ключевые показатели эффективности (KPI), чтобы убедиться, что ваши инвестиции в ИИ действительно положительно влияют на бизнес.
Начните с Небольшого Проекта
Выберите инструменты, которые соответствуют вашим потребностям и позволяют настраивать их под ваши цели. Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе.
Контактная Информация
Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подписывайтесь на наш Telegram.
Пример Решения на Основе ИИ
Посмотрите практический пример решения на основе ИИ: бот для продаж от itinai.ru/aisales, предназначенный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.