Новый метод измерения точности больших языковых моделей с улучшенным поиском

 Amazon Researchers Propose a New Method to Measure the Task-Specific Accuracy of Retrieval-Augmented Large Language Models (RAG)

“`html

Новый метод оценки точности задач Retrieval-Augmented Large Language Models (RAG)

Большие языковые модели (LLM) стали значительно популярны в последнее время. Однако оценка LLM по широкому спектру задач может быть чрезвычайно сложной. Общедоступные стандарты не всегда точно отражают общие навыки LLM, особенно в случае выполнения высокоспециализированных задач клиентов, требующих специфических знаний в области. Для оценки правильности систем Retrieval-Augmented Generation (RAG) на конкретных задачах команда исследователей из Amazon предложила подход к оценке на основе экзамена, основанный на LLM. Для оценки систем RAG команда предложила полностью автоматизированный подход, который не требует предварительно аннотированного набора данных. Основное внимание уделяется фактической точности, способности системы получать и применять правильные данные для точного ответа на запрос пользователя. Такой подход предоставляет пользователям больше информации о влияющих на производительность RAG аспектах, включая размер модели, механизмы извлечения, техники подсказок и процедуры настройки, помогая им выбрать оптимальное сочетание компонентов для своих систем RAG.

Автоматизированный подход к оценке

Команда представила полностью автоматизированный, количественный подход к оценке на основе экзамена, который можно масштабировать вверх или вниз. Это в отличие от традиционных оценок с участием человека в процессе, которые могут быть дорогими из-за необходимости участия эксперта или аннотатора. Экзамены создаются с использованием этого метода LLM, использующего корпус данных, связанных с текущим заданием. Затем кандидатские системы RAG оцениваются по их способности отвечать на вопросы с выбором ответов, взятых из этих оценок.

Оценка фактических знаний

Такой подход обеспечивает эффективную и последовательную оценку фактических знаний, сбалансированную между репрезентативностью оценки и простотой оценки. Путем сравнения результатов экзаменов можно выявить области, в которых необходимо улучшение, что позволяет постоянно улучшать экзаменационный корпус на основе обратной связи.

Основные вклады команды

Команда представила широкий подход к автоматической оценке RAG LLM, основанный на синтетических тестах, специфичных для задачи и созданных для удовлетворения уникальных требований каждого задания. Использование теории ответа на элементы (IRT) для создания надежных и понятных оценочных метрик. Предложена методичная полностью автоматизированная методика создания тестов с использованием итерационного процесса для оптимизации информативности экзаменов. Предоставлены бенчмарк-наборы данных для оценки систем RAG на основе четырех уникальных задач, что демонстрирует адаптивность и мощность данного метода оценки.

Проверьте Paper и GitHub. Вся заслуга за этими исследованиями принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter и присоединиться к нашему Telegram-каналу и группе LinkedIn. Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему 47k+ ML SubReddit

Найдите предстоящие вебинары по ИИ здесь

Статья опубликована на MarkTechPost.

Применение искусственного интеллекта в вашем бизнесе

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте методику оценки точности задач Retrieval-Augmented Large Language Models (RAG).

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358

Попробуйте AI Sales Bot. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru – будущее уже здесь!

“`

Полезные ссылки: