Улучшение производительности поиска ближайших соседей с помощью динамического подхода и эффективного построения графа

 iRangeGraph: A Dynamic Approach for Enhancing Range-Filtering Nearest Neighbor Search Performance Through Efficient Graph Construction and Reduced Memory Footprint in Large-Scale Data Systems

“`html

Использование методов на основе графов в поиске ближайших соседей

Методы на основе графов становятся все более важными для поиска данных и машинного обучения, особенно в поиске ближайших соседей (NN). Поиск ближайших соседей помогает определить точки данных, ближайшие к заданному запросу. Это критически важно для высокоразмерных данных, таких как текст, изображения или аудио. Приближенные методы поиска ближайших соседей возникли из-за неэффективности точных запросов в высокоразмерных пространствах. Подходы к приближенным методам поиска ближайших соседей, особенно на основе графов, обеспечивают баланс между временем ответа и точностью, что делает их широко используемыми в реальных приложениях, таких как системы рекомендаций, торговые платформы и системы поиска на основе ИИ. Эти системы тесно зависят от своевременного и точного извлечения соответствующих данных из больших наборов данных.

Вызовы поиска ближайших соседей с числовыми ограничениями

Одним из основных вызовов при поиске ближайших соседей является необходимость комбинировать поиск на основе векторов с дополнительными числовыми ограничениями. Например, пользователь на торговой платформе может захотеть найти товары, похожие на определенный предмет в определенном ценовом диапазоне. Традиционные приближенные методы поиска ближайших соседей фильтруют нерелевантные данные до запроса или ищут без учета ограничений, а затем фильтруют результаты. Оба подхода сталкиваются с проблемами производительности. Предварительная фильтрация может оказаться неэффективной для больших наборов данных, в то время как постфильтрация может вернуть много нерелевантных результатов, расходуя вычислительные ресурсы. Поэтому необходимость в эффективных методах поиска, включающих векторное сходство и числовые ограничения, становится все более важной, особенно в системах, обрабатывающих огромные объемы данных в различных отраслях.

Новый метод iRangeGraph

Исследователи из Университета Наньянг Технологий и Университета Ольборга представили новый метод, названный iRangeGraph, для преодоления ограничений существующих процессов. Вместо предварительного вычисления графов для каждого возможного числового диапазона, iRangeGraph создает элементарные графы только для нескольких диапазонов. Эти графы затем могут быть использованы для динамического построения отдельного графа для любого диапазона запроса во время выполнения, уменьшая необходимость в хранении индексов большого масштаба. Техника привлекла внимание игроков индустрии, таких как Apple и Alibaba, которые используют подобные методы для своих систем поиска больших масштабов. Основное преимущество iRangeGraph заключается в его способности снижать потребление памяти, сохраняя при этом высокую производительность запросов, что делает его привлекательным решением для компаний с большими наборами данных.

Преимущества метода iRangeGraph

Метод iRangeGraph включает в себя динамическое построение графовых индексов во время обработки запроса. Вместо создания и хранения индекса для каждого возможного диапазона, метод создает эти графы по мере необходимости, используя заранее созданные элементарные графы, которые охватывают умеренное количество диапазонов. Такой подход экономит память и обеспечивает эффективное время ответа на запрос. Метод iRangeGraph особенно полезен в сценариях, где числовые ограничения, применяемые к поиску, не являются очень селективными или неселективными, и там, где существующие методы показывают плохую производительность. iRangeGraph способен обрабатывать многопараметрические запросы RFANN, что означает, что запросы, включающие более одного числового ограничения, могут быть обработаны эффективно.

Результаты тестирования производительности

Тестирование производительности iRangeGraph было проведено на нескольких реальных наборах данных, включая WIT-Image, TripClick, Redcaps и YouTube. В тестах были вовлечены высокоразмерные векторные данные и числовые атрибуты, такие как размер изображения, дата публикации и количество лайков. Результаты тестов показали, что iRangeGraph значительно превзошел существующие методы. При точности 0,9 iRangeGraph достиг в 2-5 раз лучшей производительности запросов в секунду (qps) по сравнению с конкурентами. Память была значительно меньше, что является ключевым преимуществом при работе с системами большого масштаба, где хранение критически важно. В сравнении с отдельными графовыми индексами, созданными для каждого диапазона запроса, iRangeGraph оказался медленнее не более чем в 2 раза, при этом потребляя гораздо меньше памяти. Для многопараметрических запросов RFANN iRangeGraph продемонстрировал улучшение производительности в 2-4 раза по сравнению с наиболее конкурентоспособными базовыми методами.

Заключение

Метод iRangeGraph представляет собой новаторское и эффективное решение для запросов приближенного поиска ближайших соседей с числовыми ограничениями. Динамическое построение графовых индексов во время выполнения запроса и использование элементарных графов для снижения требований к памяти успешно решают недостатки существующих техник RFANN. Способность iRangeGraph обеспечивать высокую производительность при различных запросах в комбинации с значительным снижением потребления памяти делает его идеальным выбором для систем с большими данными. Гибкость метода в обработке многопараметрических запросов расширяет его применимость в реальных сценариях. Наработки исследований подчеркивают потенциал iRangeGraph для революционизации запросов приближенного поиска ближайших соседей, особенно для систем, управляющих высокоразмерными данными с числовыми ограничениями.

Источник изображения: ссылка

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте iRangeGraph: A Dynamic Approach for Enhancing Range-Filtering Nearest Neighbor Search Performance Through Efficient Graph Construction and Reduced Memory Footprint in Large-Scale Data Systems.

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.

Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!

“`

Полезные ссылки: