Создание новых наборов данных для языковых моделей с использованием метрик и искусственного интеллекта

 AutoBencher: A Metrics-Driven AI Approach Towards Constructing New Datasets for Language Models

“`html

AutoBencher: Подход к созданию новых наборов данных для языковых моделей, основанный на метриках ИИ

Этот документ рассматривает проблему эффективной оценки языковых моделей (ЯМ). Оценка является ключевой для оценки возможностей модели, отслеживания научного прогресса и выбора моделей. Традиционные бенчмарки часто не выявляют новые тенденции в производительности и иногда слишком просты для продвинутых моделей, не предоставляя достаточного пространства для роста. Исследование выделяет три ключевых критерия, которые часто отсутствуют в существующих бенчмарках: актуальность (тестирование практически важных возможностей), новизна (выявление ранее неизвестных тенденций в производительности) и сложность (предоставление вызовов существующим моделям).

Текущие методы оценки языковых моделей включают создание бенчмарков, тестирующих конкретные возможности, такие как математическое мышление или понимание академических предметов. Предыдущие работы создали высококачественные бенчмарки, руководствуясь актуальностью и сложностью. Однако эти бенчмарки часто дают похожие тенденции производительности для различных моделей, ограничивая их способность выявлять уникальные сильные и слабые стороны.

Исследователи этой работы предлагают новый инструмент, AutoBencher, который автоматически создает наборы данных, удовлетворяющие трем критериям: актуальность, новизна и сложность. AutoBencher использует языковую модель для поиска и создания наборов данных из привилегированных источников информации. Такой подход позволяет создавать более сложные и информативные бенчмарки по сравнению с существующими. Например, AutoBencher может выявлять пробелы в знаниях ЯМ, которые не учитываются текущими бенчмарками, такие как различия в производительности по менее распространенным темам, например, Пермскому вымиранию или Фордизму.

AutoBencher работает с использованием языковой модели для предложения тем оценки в широкой области (например, история) и создания небольших наборов данных для каждой темы, используя надежные источники, такие как Википедия. Инструмент оценивает каждый набор данных на основе его актуальности, новизны и сложности, выбирая лучшие для включения в бенчмарк. Этот итерационный и адаптивный процесс позволяет инструменту улучшать генерацию наборов данных для непрерывного максимизирования желаемых свойств.

Кроме того, AutoBencher использует адаптивный поиск, где траектория прошлых сгенерированных бенчмарков используется для улучшения сложности предлагаемых тем оценки. Это позволяет AutoBencher выявлять и выбирать темы, которые одновременно максимизируют новизну и сложность, с учетом критерия актуальности, заданного пользователем.

Для обеспечения высококачественных наборов данных AutoBencher использует привилегированную информацию, к которой не имеют доступа оцениваемые ЯМ, такие как детальные документы или конкретные данные, относящиеся к теме. Эта привилегированная информация помогает создавать точные и сложные вопросы. Результаты показывают, что созданные AutoBencher бенчмарки в среднем на 27% более новые и на 22% более сложные, чем существующие бенчмарки, созданные людьми. Инструмент был использован для создания наборов данных в различных областях, включая математику, историю, науку, экономику и многоязычие, выявляя новые тенденции и пробелы в производительности моделей.

Проблема эффективной оценки языковых моделей критична для их развития и оценки возможностей. AutoBencher предлагает многообещающее решение, автоматизируя создание актуальных, новых и сложных бенчмарков, тем самым предоставляя более всестороннюю и вызывающую оценочную платформу для языковых моделей. Авторы демонстрируют эффективность своего подхода, создавая разнообразные бенчмарки, выявляющие ранее неизвестные тенденции производительности различных языковых моделей и предоставляя ценные идеи для руководства развитием и выбором будущих моделей. Этот подход выявляет существующие пробелы в знаниях моделей и прокладывает путь для будущих улучшений.

Проверьте статью и Github. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему Telegram-каналу и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему SubReddit с более чем 46 тысячами подписчиков.

Статья AutoBencher: Подход к созданию новых наборов данных для языковых моделей была опубликована на MarkTechPost.

“`

Полезные ссылки: