✅ Разбор сомнений: как справляться с неопределенностью в ответах на вопросы.

«`html

Работа с неопределенностью в ответах LLM

В данном исследовании исследуется область количественной оценки неопределенности в крупных языковых моделях (LLM) с целью выявления сценариев, где неопределенность в ответах на запросы играет значительную роль.

Определение и решение проблемы

Различают эпистемическую и алеаторическую неопределенность. Эпистемическая неопределенность возникает из-за недостатка знаний или данных о действительности, тогда как алеаторическая неопределенность происходит из врожденной случайности в задаче прогнозирования. Правильная идентификация этих неопределенностей критически важна для повышения надежности и достоверности ответов LLM, особенно для обнаружения и устранения галлюцинаций или неточных ответов, генерируемых этими моделями.

Предлагаемые методы

Существуют несколько методов выявления галлюцинаций в крупных языковых моделях, каждый из которых имеет свои ограничения. Один из распространенных методов — вероятность жадного ответа (T0), который оценивает вероятность наиболее вероятного ответа, сгенерированного моделью. Другой метод — семантический метод энтропии (S.E.), который измеряет энтропию семантического распределения ответов. Наконец, метод самопроверки (S.V.) включает в себя проверку моделью своих ответов для оценки неопределенности.

Обзор предлагаемого подхода

Для преодоления ограничений текущих методов предлагается создание объединенного распределения для нескольких ответов от LLM для конкретного запроса с использованием итеративного подхода. Это включает в себя предложение LLM сгенерировать ответ на запрос, а затем запросить его генерацию последующих ответов, включая предыдущие в запросе. Совместное распределение аппроксимирует действительность, если ответы независимы, указывая на низкую эпистемическую неопределенность. Однако, если ответы влияют друг на друга, это свидетельствует о высокой эпистемической неопределенности. Эта процедура позволяет исследователям вывести информационно-теоретическую метрику эпистемической неопределенности. Они оценивают это, измеряя взаимную информацию (MI) совместного распределения ответов, которая нечувствительна к алеаторической неопределенности.

Практическое применение

Разработан оценщик конечной выборки для этой взаимной информации, который, несмотря на потенциально бесконечную поддержку выходов LLM, доказывает свою незначительную погрешность в практических применениях. Обсуждается также алгоритм обнаружения галлюцинаций на основе этой метрики взаимной информации. Путем установления порога через процедуру калибровки метод демонстрирует превосходное качество по сравнению с традиционными подходами, основанными на энтропии, особенно в наборах данных смешанных одинарных и множественных запросов. Он поддерживает высокие частоты обнаружения при минимизации ошибок, делая его надежным инструментом для улучшения надежности ответов LLM.

Значительный вклад в развитие ИИ

Это исследование является значительным прорывом в оценке неопределенности в LLM путем различения эпистемической и алеаторической неопределенности. Предложенный итеративный подход и метрика, основанная на взаимной информации, предлагают более тонкое понимание уверенности LLM, улучшая обнаружение галлюцинаций и повышая общую точность ответов. Этот подход решает критическое ограничение существующих методов и предлагает практичное и эффективное решение для применения LLM в реальных условиях.

Применение ИИ в бизнесе

Если вы хотите улучшить свою компанию с помощью искусственного интеллекта (ИИ) и оставаться в числе лидеров, грамотно используйте результаты исследования. Определите, где можно применить автоматизацию и какие KPI вы хотите улучшить с помощью ИИ. Выберите подходящее решение для вашего бизнеса и внедряйте его постепенно, анализируя результаты и опыт, чтобы расширить автоматизацию. Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями об ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.

Пробный AI Sales Bot

Попробуйте AI Sales Bot, который поможет автоматизировать ответы на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.