✅ Улучшение доверия к большим языковым моделям: настройка для точной оценки неопределенности в важных приложениях.

Улучшение доверия к большим языковым моделям: настройка для калиброванных неопределенностей в высокостейковых приложениях

Большие языковые модели (LLM) сталкиваются с существенным вызовом в точном представлении неопределенности относительно правильности своих выводов. Эта проблема критична для принятия решений, особенно в областях, таких как здравоохранение, где ошибочная уверенность может привести к опасным последствиям. Задачу дополнительно усложняют лингвистические отклонения в свободной генерации, которые невозможно исчерпывающе учесть во время обучения. Практики LLM должны учитывать дихотомию между методами оценки черного ящика и методами оценки белого ящика, причем первые становятся популярнее из-за ограниченных моделей, а вторые становятся более доступными благодаря открытым моделям.

Практические решения и ценность

Существующие попытки решить этот вызов исследовали различные подходы. Некоторые методы используют естественное выражение LLM распределения возможных результатов, используя вероятности предсказанных токенов для тестов с множественным выбором. Однако они становятся менее надежными для ответов на уровне предложения из-за необходимости распределения вероятностей по многим фразам. Другие подходы используют подсказки для получения оценок неопределенности, используя концепции «правильности» и вероятностей, изученные LLM. Линейные зонды также использовались для классификации правильности модели на основе скрытых представлений. Несмотря на эти усилия, методы черного ящика часто не удается генерировать полезные неопределенности для популярных открытых моделей, требуя тщательных вмешательств в настройку.

Для продвижения дебатов о необходимых вмешательствах для хорошей калибровки исследователи из Нью-Йоркского университета, Abacus AI и Кембриджского университета провели глубокое исследование калибровки неопределенности LLM. Они предлагают тонкую настройку для более точных неопределенностей, что обеспечивает более быстрые и надежные оценки при использовании относительно небольшого количества дополнительных параметров. Этот метод обещает обобщение на новые типы вопросов и задачи, выходящие за пределы набора данных для настройки. Подход включает обучение языковых моделей распознавать то, чего они не знают, используя калибровочный набор данных, исследуя эффективную параметризацию и определяя количество данных, необходимых для хорошего обобщения.

Предложенный метод включает в себя фокус на методах черного ящика для оценки неопределенности языковой модели, особенно тех, которые требуют одиночного образца или прохода. Для открытой генерации, где ответы не ограничены отдельными токенами или предписанными возможностями, исследователи используют перплексию в качестве нормализованной по длине метрики. Подход также исследует методы подсказок в качестве альтернативы вероятности последовательности, представляя форматы, которые заложили основу для недавних работ. К ним относятся классификаторы с нулевой адаптацией и устные утверждения уверенности, которые используются для создания оценок неопределенности из выводов языковой модели.

Результаты показывают, что тонкая настройка для неопределенностей значительно улучшает производительность по сравнению с общепринятыми базовыми показателями. Качество оценок неопределенности черного ящика, произведенных открытыми моделями, было исследовано по сравнению с точностью, используя модели, такие как LLaMA-2, Mistral и LLaMA-3. Оценка на открытой MMLU показала, что методы подсказок обычно дают плохо калиброванные неопределенности, и калибровка не улучшается изначально, по мере улучшения базовой модели. Однако AUROC показал небольшое улучшение с увеличением мощности базовой модели, хотя остается позади моделей с тонкой настройкой для неопределенности.

Это исследование показывает, что изначальные неопределенности от LLM ненадежны для открытой генерации, в отличие от предыдущих результатов. Предложенные процедуры тонкой настройки производят калиброванные неопределенности с практическими свойствами обобщения. Особенно следует отметить, что тонкая настройка оказывается удивительно эффективной по образцам и не зависит от конкретных представлений модели, оценивающей ее генерации. Исследование также демонстрирует возможность калиброванных неопределенностей быть устойчивыми к сдвигам распределения.

Применение в бизнесе

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте «Enhancing Trust in Large Language Models: Fine-Tuning for Calibrated Uncertainties in High-Stakes Applications».

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.

Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!

Проверьте статью. Все заслуги за это исследование принадлежат исследователям этого проекта. Также не забудьте подписаться на нас в Twitter.

Присоединяйтесь к нашему Telegram-каналу и LinkedIn-группе.

Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему 44k+ ML SubReddit.

Этот текст создан с использованием HTML-тегов для выделения заголовков и ссылок.

Улучшение доверия к большим языковым моделям: настройка для точной оценки неопределенности в важных приложениях.

Улучшение доверия к большим языковым моделям: настройка для калиброванных неопределенностей в высокостейковых приложениях

Практические решения и ценность

Применение в бизнесе

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Запустите свой ИИ проект бесплатно

AI в нише животных — бизнес для зоомагазина и блогера

Как вести Telegram-канал с юмором и зарабатывать

Монетизация AI в нише копирайтинга

Монетизация экспертного канала по саморазвитию

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Агент по автоматизации юридических процессов : подготовка шаблонных документов

ИИ-Агент для мультиязычной поддержки клиентов : автоматизация перевода и коммуникации

ИИ-Агент по обработке клиентских запросов : автоматизация поддержки и анализа диалогов

ИИ-Аналитик для страховых компаний : автоматизация оценки рисков

Как оценить рентабельность нового продукта: ИИ построит расчет ROI и Unit-экономику

Как оформить чек-лист первичной диагностики проблемы: ИИ предложит список вопросов по типу обращения

Как обработать входящее обращение по шаблону: искусственный интеллект подскажет универсальный текст ответа

Скрипт для звонка холодному клиенту в B2B: искусственный интеллект сгенерирует диалог с возражениями под ваш продукт

Как составить оффер без юридических рисков: искусственный интеллект предложит шаблон текста и условий

Как создать контент-воронку под сегмент B2B: ИИ предложит темы, форматы и CTA на каждом этапе CJM

Лучший ИИ онлайн

Как написать сообщение в корпоративный чат, чтобы все поняли с первого раза: искусственный интеллект предложит 3 шаблона

Falcon-H1: Гибридные языковые модели для масштабируемого многоязычного понимания

Distilabel: Открытая платформа ИИ для синтетических данных и обратной связи для инженеров на основе проверенных научных работ.

Новая статья от Huawei об исследовании языковых моделей на основе трансформеров.

Meta AI представила Cotracker3: полусупервизированный трекер для работы с неразмеченными данными и простой архитектурой.

OpenBMB выпустила MiniCPM-o 2.6: новый мультимодальный модель, способная понимать изображения, речь и язык, работающая на устройствах с ограниченными ресурсами.

Google Cloud теперь доступен для пользователей HuggingFace.

FAQ

Возврат и гарантии

Карта сайта

Реклама

Авторские права

Доступность