“`html
Оценка производительности систем вывода больших языковых моделей (LLM) с использованием Metron
Оценка производительности систем вывода больших языковых моделей (LLM) с использованием традиционных метрик представляет существенные вызовы. Метрики, такие как время до первого токена (TTFT) и время между токенами (TBT), не улавливают полного пользовательского опыта во время взаимодействий в реальном времени. Этот пробел критичен в приложениях, таких как чат и перевод, где отзывчивость напрямую влияет на удовлетворенность пользователей. Существует потребность в более тонкой системе оценки, которая полностью охватывает тонкости вывода LLM, чтобы обеспечить оптимальное развертывание и производительность в реальных сценариях.
Текущие методы оценки производительности вывода LLM
Текущие методы оценки производительности вывода LLM включают TTFT, TBT, нормализованную задержку и время на вывод токена (TPOT). Эти метрики оценивают различные аспекты задержки и пропускной способности, но не дают полного представления о пользовательском опыте. Например, TTFT и TBT фокусируются на отдельных задержках токенов, не учитывая пропускную способность от начала до конца, в то время как нормализованные метрики затрудняют выявление проблем, таких как межтокенная джиттер и задержки планирования. Эти ограничения снижают их эффективность в приложениях реального времени, где поддержание плавной и последовательной скорости генерации токенов критично.
Предложение Metron
Команда исследователей из Грузинского технологического института, Исследовательской лаборатории Майкрософт в Индии и Лаборатории искусственного интеллекта Intel предлагают Metron, комплексную систему оценки производительности. Metron вводит новые метрики, такие как индекс плавности и плавная скорость генерации токенов, которые улавливают тонкости взаимодействий в реальном времени с потоковыми LLM. Эти метрики учитывают временные аспекты генерации токенов, обеспечивая более точное отражение производительности, ориентированной на пользователя. Устанавливая сроки на уровне токенов и измеряя долю соблюденных сроков, индекс плавности предоставляет точное определение ограничений пользовательского опыта.
Преимущества Metron
Metron предоставляет более точную оценку вывода LLM по сравнению с традиционными метриками. Индекс плавности и плавная скорость генерации токенов показывают существенные различия в пользовательском опыте, которые не улавливаются только TTFT или TBT. Например, оценка систем, таких как vLLM и Sarathi-Serve, продемонстрировала, что Sarathi-Serve достигает меньшего количества пропусков сроков и более высокой плавности. Результаты показывают, что Sarathi-Serve поддерживал индекс плавности > 0,9 для 99% запросов, достигая пропускной способности 600 токенов в секунду, в то время как у vLLM было в 3 раза хуже время TBT из-за задержек в генерации. Это демонстрирует эффективность Metron в выявлении различий в производительности и обеспечении лучшего пользовательского опыта в реальных приложениях.
В заключение, предложенный метод, Metron, вводит новую систему оценки, включая метрики индекса плавности и плавной скорости генерации токенов, для более точной оценки производительности вывода LLM. Этот подход преодолевает ограничения традиционных метрик, предоставляя оценку, ориентированную на пользователя, которая улавливает тонкости вывода токенов в реальном времени. Результаты демонстрируют эффективность Metron в выявлении различий в производительности и его потенциальное влияние на улучшение систем вывода LLM, обеспечивая лучший пользовательский опыт в реальных приложениях.
Подробнее о статье и проекте вы можете узнать на ссылке. Все заслуги за это исследование принадлежат исследователям этого проекта. Также не забудьте подписаться на наш Twitter.
Присоединяйтесь к нашему Telegram каналу и группе в LinkedIn.
Если вам нравится наша работа, вам понравится наш рассылка.
Не забудьте присоединиться к нашему SubReddit.
Источник: MarkTechPost
Применение искусственного интеллекта в вашем бизнесе
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте Metron: A Holistic AI Framework for Evaluating User-Facing Performance in LLM Inference Systems.
Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.
Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.
Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.
На полученных данных и опыте расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам на ссылке. Следите за новостями о ИИ в нашем Телеграм-канале itinainews или в Twitter @itinairu45358.
Попробуйте AI Sales Bot здесь. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!
“`