✅ Улучшение LLM: метод самосовершенствования, когда LLM оценивает свои собственные решения и использует обратную связь для улучшения своих навыков оценки.

«`html

Meta-Rewarding LLMs: новый метод улучшения способности к следованию инструкциям

Исследователи разработали Meta-Rewarding, новый метод улучшения способности к следованию инструкциям LLMs. Этот метод использует мета-судью для оценки и выбора суждений для оптимизации предпочтений, что позволяет преодолеть ограничения предыдущих Self-Rewarding методов путем прямого обучения судьи. Более того, он включает новую технику контроля длины для решения проблем длинных ответов в обучении AI. Способности модели к суждению более тесно соответствуют суждениям человеческих судей и передовым AI-судьям, таким как GPT-4. Однако исследователи отмечают ограничение в своей 5-балльной системе суждения, которая иногда приводит к ничьим из-за минимальных различий в качестве ответов.