Salesforce AI Research представила новую систему оценки для генерации с поддержкой поиска на основе охвата под-вопросов.

 Salesforce AI Research Introduces a Novel Evaluation Framework for Retrieval-Augmented Generation (RAG) Systems based on Sub-Question Coverage

“`html

Системы генерации с дополнением извлечения (RAG)

Системы RAG объединяют извлечение и генерацию информации для решения сложных вопросов. Они используют релевантные документы и знания, чтобы создавать более полные ответы, чем модели, работающие только на генерации. Этот подход полезен в таких областях, как юридические исследования и академический анализ.

Преимущества RAG систем

  • Широкий контекст: Они могут предоставлять более глубокие и разнообразные ответы.
  • Комплексные ответы: Системы собирают данные и формируют полные ответы.

Оценка эффективности RAG систем

Оценка RAG систем представляет собой уникальную задачу, так как они отвечают на многослойные вопросы. Традиционные метрики не всегда способны отразить, насколько хорошо системы охватывают все аспекты вопросов.

Проблемы оценки

  • Недостаток глубокого анализа: Существующие инструменты часто не учитывают все подтемы.
  • Низкий уровень удовлетворенности пользователей: Системы не всегда предоставляют полные ответы.

Новая методология оценки RAG систем

Исследователи из Georgia Institute of Technology и Salesforce AI Research разработали новый подход к оценке RAG систем с использованием метрики “покрытие подтем”.

Процесс разработки

  1. Разделение сложных вопросов на подтемы: основные, фоновые и дополнительные.
  2. Тестирование способности систем извлекать релевантный контент для каждой категории.

Результаты исследования

Исследование показало, что системы RAG имеют свои сильные и слабые стороны:

  • Покрытие основных подтем: В среднем системы пропускают около 50% основных подтем.
  • Точность систем: Perplexity AI показала наилучшие результаты с 71% точности.
  • Необходимость фоновой информации: Покрытие фоновых подтем было низким (14-20%).

Выводы и рекомендации

Исследование подчеркивает важность классификации подтем для улучшения работы RAG систем. Предлагается:

  • Улучшить покрытие основных подтем: Это ключевая область для доработки.
  • Повысить точность систем: Необходимо улучшать связь между извлеченным контентом и ответами.
  • Уделять внимание фоновой информации: Это поможет повысить качество ответов.

Практические шаги для внедрения ИИ

Если вы хотите развивать свою компанию с помощью ИИ, следуйте этим рекомендациям:

  • Анализируйте, где можно применить автоматизацию.
  • Определите ключевые показатели эффективности (KPI) для улучшения.
  • Выбирайте подходящие решения ИИ и внедряйте их постепенно.

Для получения советов по внедрению ИИ пишите нам в Telegram. Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab.

“`

Полезные ссылки: