Могут ли более небольшие модели искусственного интеллекта превзойти гигантов? Новая статья от Google DeepMind раскрывает мощь “меньших, слабых, но лучших” обучений для LLM-резонаторов.

 Can Smaller AI Models Outperform Giants? This AI Paper from Google DeepMind Unveils the Power of ‘Smaller, Weaker, Yet Better’ Training for LLM Reasoners

“`html

Революционный подход к генерации синтетических данных для обучения моделей искусственного интеллекта

Одной из ключевых проблем при обучении больших языковых моделей (LLMs) для задач рассуждения является поиск наиболее эффективного метода генерации синтетических данных, который повышает производительность модели. Традиционно для этого использовались более мощные и дорогостоящие языковые модели (SE), но это подход требует больших вычислительных ресурсов и ограничивает объем данных в рамках фиксированного бюджета.

Преимущества использования менее мощных моделей

Существующие методы повышения способностей LLM включают такие стратегии, как дистилляция знаний, где более маленькая модель обучается на основе данных более крупной модели, а также самоусовершенствование, когда модели обучаются на данных, которые они сами генерируют. Однако эти методы имеют недостатки, такие как высокие вычислительные затраты, ограничивающие объем и разнообразие производимых данных.

Исследователи из Google DeepMind предлагают новый подход, адвокирующий использование менее мощных моделей (WC), которые, несмотря на свои ограничения, более эффективны с точки зрения затрат и позволяют генерировать больший объем данных в рамках того же вычислительного бюджета. Этот подход был оценен по ключевым метрикам: охвату, разнообразию и уровню ложноположительных ответов (FPR). Исследование показало, что данные, сгенерированные менее мощными моделями, хотя и обладают более высоким FPR, предлагают больший охват и разнообразие по сравнению с данными, сгенерированными более мощными моделями.

Результаты экспериментов и перспективы использования менее мощных моделей

Эксперименты сравнили WC и SE модели на фиксированном вычислительном бюджете, показав, что WC модель производит в три раза больше выборок, чем SE модель в рамках тех же вычислительных ограничений. При этом данные, сгенерированные WC моделью, показали на 11% больший охват и на 86% большее разнообразие, чем данные, сгенерированные SE моделью на датасете MATH, несмотря на 7% увеличение FPR.

Значительные улучшения наблюдались в производительности LLM на различных тестах. Использование данных, сгенерированных WC моделями, последовательно приводило к лучшим результатам по сравнению с моделями, обученными на данных от SE моделей. Например, использование данных, сгенерированных WC моделью, приводило к улучшению точности на 6% при дистилляции знаний и на 5.8% при использовании слабого улучшения крепкого на датасете MATH.

Использование WC моделей для генерации синтетических данных оказалось более эффективным по сравнению с SE моделями. Эти результаты высветили перспективы использования менее мощных моделей для обучения LLM, что вызывает пересмотр привычных подходов в исследованиях по ИИ и показывает новые пути для более эффективного обучения LLM.

Подробнее с документом можно ознакомиться по ссылке: Can Smaller AI Models Outperform Giants? This AI Paper from Google DeepMind Unveils the Power of ‘Smaller, Weaker, Yet Better’ Training for LLM Reasoners.

Все права на это исследование принадлежат его авторам. Также не забудьте подписаться на наш Twitter, присоединиться к нашему каналу в Telegram и LinkedIn Group. Если вам понравилась наша работа, вам понравится и наша рассылка.

Не забудьте присоединиться к нашему сообществу более чем из 50 тысяч человек на ML SubReddit.

Также рекомендуем вебинар от нашего спонсора: ‘Building Performant AI Applications with NVIDIA NIMs and Haystack’.

Этот пост был опубликован на портале MarkTechPost.

Использование ИИ в бизнесе

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте данные исследования.

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на Telegram. Следите за новостями о ИИ в нашем Телеграм-канале или в Twitter.

Попробуйте AI Sales Bot. Этот AI ассистент в продажах, помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab. Будущее уже здесь!

“`

Полезные ссылки: