Новый подход ИИ для улучшения оценок без участия человека превосходит GPT-4

 Meta presents Self-Taught Evaluators: A New AI Approach that Aims to Improve Evaluators without Human Annotations and Outperforms Commonly Used LLM Judges Such as GPT-4

“`html

Продвижения в области NLP привели к разработке больших языковых моделей (LLM), способных выполнять сложные задачи, связанные с языком, с высокой точностью.

Эти продвижения открыли новые возможности в технологиях и коммуникациях, позволяя более естественное и эффективное взаимодействие человека с компьютером.

Проблема в NLP

Существенной проблемой в NLP является зависимость от человеческих аннотаций для оценки моделей. Сбор этих данных дорогостоящ и затратен по времени. Как модели улучшаются, ранее собранные аннотации могут потребовать обновления, уменьшая их полезность для оценки новых моделей. Это создает постоянную потребность в свежих данных, что представляет вызовы для масштабирования и поддержания эффективной оценки моделей. Решение этой проблемы критично для продвижения технологий NLP и их применений.

Текущие методы оценки моделей

Типичные методы оценки моделей включают сбор большого количества человеческих предпочтений по ответам моделей и использование автоматических метрик для задач с эталонными ответами. Однако эти методы имеют ограничения, особенно для сложных задач, где возможны несколько верных ответов. Высокая вариация в человеческих оценках и связанные с ними затраты подчеркивают необходимость более эффективных и масштабируемых техник оценки.

Новый подход: “Самообучающийся оценщик”

Исследователи из Meta FAIR предложили новый подход, который устраняет необходимость в человеческих аннотациях, используя синтетически сгенерированные данные для обучения. Этот метод начинается с базовой модели, которая генерирует контрастные синтетические пары предпочтений. Модель затем оценивает эти пары и итеративно улучшается, используя свои оценки для улучшения своей производительности в последующих итерациях. Этот подход снижает зависимость от человеческих аннотаций, используя способность модели генерировать и оценивать данные.

Результаты и перспективы

Производительность “Самообучающегося оценщика” была протестирована с использованием модели Llama-3-70B-Instruct. Метод улучшил точность модели на бенчмарке RewardBench с 75.4 до 88.7, превзойдя производительность моделей, обученных с использованием человеческих аннотаций. Данный значительный прогресс демонстрирует эффективность синтетических данных в улучшении оценки модели. Исследователи также провели несколько итераций, дополнительно улучшая возможности модели. Итоговая модель достигла точности 88.3 при одном выводе и 88.7 при голосовании большинства, показывая ее надежность и устойчивость.

Заключение

Самообучающийся оценщик предлагает масштабируемое и эффективное решение для оценки моделей NLP. Путем использования синтетических данных и итеративного самоулучшения он решает вызовы, связанные с зависимостью от человеческих аннотаций, и идет в ногу с быстрыми продвижениями в разработке языковых моделей. Этот подход улучшает производительность модели и уменьшает зависимость от человеческих данных, открывая путь к более автономным и эффективным системам NLP. Работа исследовательской команды Meta FAIR является значительным шагом вперед в стремлении к более продвинутым и автономным методам оценки в области NLP.

Проверьте статью. Вся заслуга за это исследование принадлежит его авторам. Также, не забудьте подписаться на наш Twitter и присоединиться к нашему каналу в Telegram и группе в LinkedIn. Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему подпреддиту по машинному обучению.

Находите предстоящие вебинары по ИИ здесь.

Arcee AI выпустил DistillKit: Open Source инструмент, упрощающий дистилляцию моделей для создания эффективных малых языковых моделей.

Статья Meta представляет Самообучающихся Оценщиков: Новый подход в области ИИ, направленный на улучшение оценки без человеческих аннотаций и превосходящий обычно используемых судей LLM, таких как GPT-4.

Это был перевод статьи с сайта MarkTechPost.


“`

Полезные ссылки: