✅ Как языковые модели запоминают информацию: новый подход к измерению способности моделей

Как много языковые модели действительно запоминают? Новый подход Meta к определению емкости модели на уровне бит

Введение: Проблема запоминания в языковых моделях

Современные языковые модели вызывают все больше вопросов относительно их способности к запоминанию. С моделями, такими как трансформер с 8 миллиардами параметров, обученными на 15 триллионах токенов, исследователи задаются вопросом, действительно ли эти модели запоминают свои тренировочные данные. Традиционные методы, такие как извлечение данных и инференс членства, часто не могут четко различить запоминание и обобщение.

Ограничения существующих подходов

Предыдущие подходы, такие как методы на основе извлечения или дифференциальная приватность, работают на уровне наборов данных и не учитывают специфическое запоминание экземпляров. Моделирование языка через сжатие и оценка емкости через запоминание фактов (как в RNN и квантизированных трансформерах) дают лишь частичное представление, но не обладают масштабируемостью и точностью, особенно для глубоких архитектур трансформеров.

Новый подход к измерению запоминания

Исследователи из FAIR в Meta, Google DeepMind, Корнеллского университета и NVIDIA предложили новый метод оценки того, сколько модель «знает» о конкретных данных, чтобы измерить емкость современных языковых моделей. Они разделили запоминание на два компонента: непреднамеренное запоминание, которое представляет информацию, содержащуюся в модели о наборе данных, и обобщение, которое захватывает информацию о процессе генерации истинных данных. Они вычисляют общее запоминание, чтобы предоставить точные оценки емкости модели, убирая обобщение, показывая, что модели семейства GPT имеют приблизительную емкость 3.6 бит на параметр.

Экспериментальная структура и методология обучения

Используя архитектуру GPT-2, команда обучила сотни моделей с количеством параметров от 100K до 20M, варьируя глубину (1-8 слоев) и размеры скрытых слоев (32-512). Обучение включало:

106 шагов
Размер батча: 2048
Точность: bfloat16
Аппаратное обеспечение: один GPU A100

Эти модели обучались как на синтетических последовательностях, так и на дедуплицированных текстовых последовательностях из 64 токенов из набора данных FineWeb. Эксперименты обеспечили минимальное вмешательство обобщения благодаря тщательному построению набора данных.

Инсайты о емкости модели и ключевые выводы

Биты на параметр: во всех конфигурациях модели последовательно хранили от 3.5 до 3.6 бит/параметр.
Двойное снижение: по мере приближения размера обучающего набора к емкости модели, тестовая потеря сначала уменьшается (переобучение), а затем снова улучшается, когда модели начинают обобщать.
Влияние точности: обучение в формате float32 немного увеличивает емкость хранения (до ~3.83 bpp) по сравнению с bfloat16 (~3.51 bpp).

Разделение запоминания и обобщения

Переключившись с синтетических на реальные текстовые наборы данных, команда наблюдала:

Непреднамеренное запоминание на уровне образца увеличивается с количеством параметров.
Запоминание уменьшается по мере увеличения размера обучающего набора.
Точная оценка запоминания модели требует дедупликации и ссылки на эталонную модель для базовых коэффициентов сжатия.

Законы масштабирования инференса членства

Исследователи смоделировали уровень успеха (F1 score) инференса членства на основе потерь как функцию соотношения между емкостью модели и размером набора данных. Ключевые наблюдения:

Инференс членства становится ненадежным по мере роста наборов данных.
Прогнозируемые законы масштабирования остаются точными в пределах 1-2% для моделей до 1.5B параметров.

Заключение: Лучшее понимание поведения модели

Эта работа устанавливает принципиальную основу для измерения запоминания в языковых моделях. Вводя количественные метрики и масштабируемые эксперименты, она углубляет наше понимание того, как трансформеры кодируют тренировочные данные и проводит четкую границу между запоминанием и обобщением. Полученные инсайты могут направить будущие разработки в области оценки моделей, конфиденциальности и интерпретируемости.

Хотите продвигать свой продукт/вебинар/услугу для более чем 1 миллиона инженеров/разработчиков/ученых данных/архитекторов/CTO/CIO? Давайте сотрудничать.

Как языковые модели запоминают информацию: новый подход к измерению способности моделей

Как много языковые модели действительно запоминают? Новый подход Meta к определению емкости модели на уровне бит

Ограничения существующих подходов

Новый подход к измерению запоминания

Экспериментальная структура и методология обучения

Инсайты о емкости модели и ключевые выводы

Разделение запоминания и обобщения

Законы масштабирования инференса членства

Заключение: Лучшее понимание поведения модели

Запустите свой ИИ проект бесплатно

Монетизация Telegram-канала с цитатами и мотивацией

Как зарабатывать на AI в нише психологии

Монетизация блога про уход за кожей

Монетизация экспертного канала по саморазвитию

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Агент для анализа видеоконтента : извлечение данных из записей

ИИ-Агент по управлению заявками : автоматизация обработки тикетов

ИИ-Агент для анализа данных о продажах : прогноз выручки и стратегий

ИИ-Агент для автоматизации медицинских записей : структурирование данных пациентов

Как закрыть обращение с гарантией, что клиент доволен: ИИ предложит текст финального ответа

Как подготовить бриф для дизайнера под рекламную кампанию: ИИ предложит шаблон и вопросы

Как запланировать спринт по Scrum: ИИ предложит распределение задач по capacity команды

Как проверить договор аренды на соответствие налоговому учету: искусственный интеллект выявит риски

Как оформить чек-лист первичной диагностики проблемы: ИИ предложит список вопросов по типу обращения

Как готовиться к встрече с ЛПР: искусственный интеллект составит план вопросов и аргументов

Лучший ИИ онлайн

Готовый к анализу набор данных машинного обучения для классификации сельскохозяйственных угодий в Европе по типам культур.

Влияние размера партии и масштабирования данных на эффективность обучения больших языковых моделей с новыми методами оптимизации

ИИ-Специалист по автоматизации электронной коммерции : оптимизация карточек товаров

Новые открытые модели языка для исследований искусственного интеллекта.

ИИ-Агент для мультиязычной поддержки клиентов : автоматизация перевода и коммуникации

SambaNova Systems устанавливает рекорды с помощью Samba-1-Turbo: уникальная скорость и инновации в обработке искусственного интеллекта

MoonshotAI представила Checkpoint-Engine: эффективное решение для обновления весов моделей в LLM

Eleuther AI представила новый метод анализа обучения нейронных сетей с помощью матрицы Якоби.

Авторские права

Возврат и гарантии

Карта сайта

Партнеры

FAQ

Условия использования