Исследователи Amazon предлагают KD-Boost: новый алгоритм знаниевой дистилляции, специально разработанный для мгновенного семантического сопоставления в реальном времени. Интересное решение для улучшения точности и эффективности! #Amazon #исследования
Amazon Researchers предлагают KD-Boost: новый алгоритм дистилляции знаний, разработанный для реального времени семантического сопоставления
Поиск в Интернете и поиск товаров в электронной коммерции – это две основные области применения, которые зависят от точного семантического сопоставления в режиме реального времени. В случае поиска товаров сложность заключается в устранении семантического разрыва между запросами пользователей и связанными результатами. Процедура сопоставления обычно состоит из двух шагов: поиск товаров (Product Sourcing, PS) и автоматическая реформулировка запросов. Поиск товаров находит соответствующие результаты для заданного запроса, которые часто называются продуктами в контексте поиска товаров. Затем автоматическая реформулировка запросов преобразует плохо сформулированные запросы пользователей в семантически схожие и хорошо сформулированные запросы для расширения охвата результатов.
Семантическое сопоставление
Семантическое сопоставление – это процесс, при котором поисковые системы распознают и связывают элементы с сопоставимыми значениями. С помощью семантического сопоставления запросы пользователей возвращают не просто любые результаты, а наиболее релевантные в заданном контексте. Модели на основе трансформера показали себя очень успешными в кодировании запросов и группировке их вместе в пространстве вложений с семантически связанными элементами, такими как запросы или результаты. Однако проблемы задержки делают большие модели трансформера непрактичными для сопоставления в реальном времени из-за высокой вычислительной сложности.
Решение проблемы
Для решения этих проблем команда исследователей из Amazon представила KD-Boost, новую технику дистилляции знаний, специально разработанную для решения проблем семантического сопоставления в реальном времени. KD-Boost использует истинные значения и мягкие метки от модели-учителя для обучения точных моделей с низкой задержкой. Парные сигналы запрос-продукт и запрос-запрос, полученные из прямых проверок, исследований поведения пользователей и данных на основе таксономии, являются источником мягких меток. Для правильного направления процесса обучения были использованы специальные функции потерь.
Исследователи сообщили, что в исследовании использовались различные источники сигналов сходства и несходства, чтобы удовлетворить совместные потребности реформулировки запросов и поиска товаров. Редакционные ординальные метки соответствия для пар запрос-продукт, информация о поведении пользователей, такая как клики и продажи, и таксономия товаров – некоторые примеры таких сигналов. Чтобы убедиться, что модель учится представлять нюансы релевантности и сходства, были использованы специальные функции потерь.
Команда поделилась, что тесты проводились на внутренних и внешних наборах данных электронной коммерции, которые продемонстрировали значительное улучшение на 2-3% в показателе ROC-AUC (Receiver Operating Characteristic – Area Under the Curve) по сравнению с прямым обучением модели-ученика. KD-Boost показал результаты лучше как современных стандартов дистилляции знаний, так и моделей-учителей.
В симулированных онлайн-тестах A/B с использованием KD-Boost для автоматической реформулировки запросов были замечены обнадеживающие результаты. Сопоставление запрос-запрос увеличилось на 6,31%, что свидетельствует об улучшенном семантическом понимании. Релевантность также улучшилась на 2,19%, что говорит о более точных и контекстно релевантных совпадениях, а покрытие продуктов увеличилось на 2,76%, что указывает на более широкий спектр релевантных результатов.
В заключение, это исследование решает проблемы задержки, связанные с обширным поиском товаров, акцентируя внимание на улучшении как поиска товаров, так и автоматической реформулировки запросов. Оно признает недостатки текущих моделей на основе трансформера и помогает изучить использование дистилляции знаний в качестве решения.
Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте присоединиться к нашему сообществу в Telegram, Facebook и Discord, где мы делимся последними новостями о искусственном интеллекте и интересными проектами.
Если вам нужны рекомендации по управлению ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей об ИИ, подпишитесь на наш Telegram-канал t.me/itinairu.
Посмотрите на практический пример решения на основе ИИ: бот для продаж от itinai.ru/aisales, созданный для автоматизации общения с клиентами круглосуточно и управления взаимодействием на всех этапах пути клиента.
Изучите, как искусственный интеллект может улучшить ваши продажи и общение с клиентами. Познакомьтесь с нашими решениями на сайте itinai.ru.