Создание синтетической коллекции тестов для оценки качества поиска информации.

 SynDL: A Synthetic Test Collection Utilizing Large Language Models to Revolutionize Large-Scale Information Retrieval Evaluation and Relevance Assessment

“`html

Использование SynDL для развития вашего бизнеса с помощью искусственного интеллекта (ИИ)

Информационный поиск (IR) – фундаментальный аспект компьютерных наук, направленный на эффективное нахождение соответствующей информации в больших наборах данных. По мере экспоненциального роста данных возрастает необходимость в продвинутых системах поиска. Эти системы используют сложные алгоритмы для сопоставления запросов пользователей с соответствующими документами или отрывками. Недавние достижения в области машинного обучения, особенно в обработке естественного языка (NLP), значительно улучшили возможности систем IR. Применение таких техник, как плотный поиск отрывков и расширение запросов, позволяет исследователям улучшить точность и актуальность результатов поиска. Эти достижения имеют важное значение в областях от академических исследований до коммерческих поисковых систем, где способность быстро и точно извлекать информацию является неотъемлемой.

Преодоление вызовов в информационном поиске

Постоянным вызовом в информационном поиске является создание масштабных тестовых коллекций, которые могут точно моделировать сложные взаимосвязи между запросами и документами. Традиционные тестовые коллекции часто полагаются на оценку релевантности записей человеческими экспертами, процесс, который не только затратен по времени, но и дорог. Эта зависимость от человеческого суждения ограничивает масштаб тестовых коллекций и затрудняет разработку и оценку более продвинутых систем поиска. Например, существующие коллекции, такие как MS MARCO, включают более 1 миллиона вопросов, но для каждого запроса в среднем только 10 отрывков считаются релевантными, оставляя примерно 8,8 миллиона отрывков как нерелевантные. Этот значительный дисбаланс подчеркивает сложность полного охвата взаимосвязей между запросами и документами, особенно в больших наборах данных.

Инновационное решение: SynDL

Исследователи из University College London, University of Sheffield, Amazon и Microsoft представили новую тестовую коллекцию под названием SynDL. SynDL представляет собой значительное достижение в области IR, используя LLM для создания масштабного синтетического набора данных. Эта коллекция расширяет существующие TREC Deep Learning Tracks, включая более 1 900 тестовых запросов и генерируя 637 063 пары запрос-отрывок для оценки релевантности. Процесс разработки SynDL включал агрегацию начальных запросов из пяти лет TREC Deep Learning Tracks, включая 500 синтетических запросов, сгенерированных моделями GPT-4 и T5. Эти синтетические запросы позволяют более подробно проанализировать взаимосвязи между запросами и документами и обеспечивают надежную основу для оценки производительности систем поиска.

Оценка эффективности SynDL

Оценка SynDL продемонстрировала ее эффективность в предоставлении надежных и последовательных рейтингов систем. В сравнительных исследованиях SynDL сильно коррелировала с человеческими суждениями, с коэффициентами Тау Кендалла 0,8571 для NDCG@10 и 0,8286 для NDCG@100. Более того, лучшие системы из TREC Deep Learning Tracks сохраняли свои рейтинги при оценке с использованием SynDL, что указывает на надежность синтетического набора данных. Включение синтетических запросов также позволило исследователям проанализировать потенциальные предвзятости в тексте, сгенерированном LLM, особенно в отношении использования подобных языковых моделей как в генерации запросов, так и в оценке систем. Несмотря на эти опасения, SynDL продемонстрировала сбалансированную среду оценки, где системы на основе GPT не получали несправедливых преимуществ.

Заключение

SynDL представляет собой значительное достижение в информационном поиске, преодолевая ограничения существующих тестовых коллекций. Через инновационное использование больших языковых моделей, SynDL предоставляет масштабный синтетический набор данных, который улучшает оценку систем поиска. Благодаря подробным меткам релевантности и обширному охвату запросов, SynDL предлагает более полную основу для оценки производительности систем IR. Успешная корреляция с человеческими суждениями и включение синтетических запросов делают SynDL ценным ресурсом для будущих исследований.

Проверьте статью. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter и присоединиться к нашему Telegram-каналу и группе в LinkedIn. Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему 50k+ ML SubReddit.

Вот рекомендуемый вебинар от нашего спонсора: “Построение производительных приложений ИИ с помощью NVIDIA NIMs и Haystack”.

“`

Полезные ссылки: