Система MuxServe: гибкая и эффективная мультиплексная система для обслуживания нескольких LLM одновременно

Itinai.com it company office background blured chaos 50 v 04fd15e0 f9b2 4808 a5a4 d8a8191e4a22 1

«`html

Крупные языковые модели (LLM) в AI

Крупные языковые модели (LLM) получили значительное признание в индустрии искусственного интеллекта, революционизируя различные приложения, такие как чат, программирование и поиск. Однако эффективное обслуживание нескольких LLM стало критической проблемой для поставщиков конечных точек. Основная проблема заключается в значительных вычислительных требованиях этих моделей, с одной 175B LLM, требующей восемь A100 (80GB) GPU для вывода.

Вызовы и решения

Текущие методологии, в частности, пространственное разделение, должны улучшить использование ресурсов. Этот подход выделяет отдельные группы GPU для каждого LLM, что приводит к недоиспользованию из-за различной популярности моделей и скорости запросов. Существующие попытки решить проблемы обслуживания LLM исследовали различные подходы. Системы обслуживания глубокого обучения сосредоточились на временном мультиплексировании и стратегиях планирования, но они в основном предназначены для более маленьких моделей. Специфические для LLM системы продвинулись благодаря настраиваемым ядрам GPU, параллельным техникам и оптимизациям, таким как управление памятью и выгрузка. Однако эти методы обычно нацелены на одиночный вывод LLM. Техники совместного использования GPU, включая временное и пространственное совместное использование, были разработаны для улучшения использования ресурсов, но они обычно нацелены на более мелкие задачи DNN.

Преимущества MuxServe

Исследователи из нескольких университетов представляют MuxServe, гибкий пространственно-временной мультиплексный подход для обслуживания нескольких LLM, решающий проблемы использования GPU. Система использует жадный алгоритм размещения, адаптивное планирование партий и унифицированный менеджер ресурсов для максимизации эффективности. Путем разделения GPU SM с помощью CUDA MPS MuxServe достигает эффективного пространственно-временного разделения. Этот подход приводит к увеличению пропускной способности до 1,8× по сравнению с существующими системами, что является значительным прорывом в эффективном мульти-LLM обслуживании.

Применение в реальной жизни

MuxServe демонстрирует превосходную производительность как в синтетических, так и в реальных рабочих нагрузках. В синтетических сценариях он достигает до 1,8× большей пропускной способности и обрабатывает на 2,9× больше запросов при достижении 99% SLO по сравнению с базовыми системами. Система эффективно совмещает LLM с различной популярностью и потребностями в ресурсах, улучшая общее использование системы.

Заключение

Это исследование представляет MuxServe как значительный прорыв в области обслуживания LLM. Его инновационный подход к совмещению LLM на основе их популярности и разделение задач приводит к улучшению использования GPU. MuxServe демонстрирует значительные улучшения производительности по сравнению с существующими системами, достигая более высокой пропускной способности и лучшего достижения SLO в различных сценариях рабочей нагрузки.

«`

«`html

Подробнее о проекте и научной статье вы можете узнать на нашем сайте. Вся заслуга за это исследование принадлежит его авторам. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему Telegram-каналу и группе в LinkedIn.

Если вам понравилась наша работа, вам понравится и наша рассылка.

Не забудьте присоединиться к нашему сообществу в Reddit.

Попробуйте AI Sales Bot. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab. Будущее уже здесь!

Если вам нужны советы по внедрению ИИ, пишите нам на нашем Telegram-канале. Следите за новостями о ИИ в нашем Telegram-канале или в Twitter.

«`

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Сотрудничество

Бесплатный ИИ текст генератор

Спросить ИИ чат

Заказать разработку

30.06.2024

Владимир Дьячков PhD

Лучшие ИИ

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ

23.03.2025

Лучшие ИИ

Новый метод SWEET-RL для обучения мультитурных языковых агентов: повышение эффективности сотрудничества человек-Искусственный интеллект

Решения на основе ИИ для бизнеса Введение в автономные агенты на основе больших языковых моделей Большие языковые модели (LLMs) быстро превращаются в автономные агенты, способные выполнять сложные задачи,…
01.06.2025

Лучшие ИИ

Создание интеллектуального AI-ассистента с Jina Search и LangChain для бизнеса

Создание Интеллектуального ИИ Ассистента с Jina Search, LangChain и Gemini В современном мире, где информация становится все более доступной, создание интеллектуального ассистента, способного предоставлять актуальные данные в реальном…
20.11.2024

Лучшие ИИ

Lingma SWE-GPT: Новые AI-решения для разработки программного обеспечения с открытыми моделями

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ
07.09.2024

Лучшие ИИ

DeepSeek-V2.5: Новая версия с улучшенными возможностями

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ
15.06.2025

Лучшие ИИ

Создание приложений на основе ИИ с использованием рабочего процесса TinyDev: План → Файлы → Код

Создание приложений на основе ИИ с использованием рабочего процесса Plan → Files → Code в TinyDev В мире, где скорость разработки и инновации имеют решающее значение, использование ИИ…
10.12.2024

Лучшие ИИ

Как крупные языковые модели настраиваются на целенаправленное мышление вместо полного представления мира: выводы из фреймворка REPLACE

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ
28.02.2025

Лучшие ИИ

Система файлов Fire-Flyer (3FS): Высокопроизводительное решение для AI-тренировок и вывода данных

Введение Развитие искусственного интеллекта привело к увеличению объемов данных и вычислительных требований. Для эффективного обучения и вывода AI необходимы мощные вычислительные ресурсы и надежные решения для хранения данных.…

AI Новости
24.08.2024

Лучшие ИИ

Расширение для браузера с открытым исходным кодом, делающее искусственный интеллект доступным прямо там, где вам это нужно

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ

Система MuxServe: гибкая и эффективная мультиплексная система для обслуживания нескольких LLM одновременно

Крупные языковые модели (LLM) в AI

Вызовы и решения

Преимущества MuxServe

Применение в реальной жизни

Заключение

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Запустите свой ИИ проект бесплатно

AI-помощник для дизайнера-фрилансера

Как эксперт по маркетингу может начать с AI

Монетизация для фитнес тренера с помощью искусственного интеллекта

Монетизация AI в нише копирайтинга

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Консультант по персонализации CRM : сегментация и рекомендации

ИИ-Оптимизатор складских запасов : прогнозирование потребностей и минимизация издержек

ИИ-Аналитик социальных сетей : генерация стратегий контента

ИИ-Специалист по обучению сотрудников : персонализация обучающих материалов

Что писать в первом письме клиенту: искусственный интеллект сгенерирует текст под вашу воронку и ЦА

Как не упустить клиента после демо: искусственный интеллект составит follow-up письмо с вопросом и призывом

Как провести GAP-анализ текущих и целевых функций: ИИ выделит отклонения и предложит шаги внедрения

Как описать бренд в одном абзаце для маркетинга: ИИ сгенерирует текст в формате “суть бренда”

Как оформить changelog для релиза: ИИ структурирует текст заметок для пользователей и разработчиков

Как оформить акт приема-передачи документации при увольнении: ИИ сформирует шаблон под ситуацию

Лучший ИИ онлайн

Новый метод SWEET-RL для обучения мультитурных языковых агентов: повышение эффективности сотрудничества человек-Искусственный интеллект

Создание интеллектуального AI-ассистента с Jina Search и LangChain для бизнеса

Lingma SWE-GPT: Новые AI-решения для разработки программного обеспечения с открытыми моделями

DeepSeek-V2.5: Новая версия с улучшенными возможностями

Создание приложений на основе ИИ с использованием рабочего процесса TinyDev: План → Файлы → Код

Как крупные языковые модели настраиваются на целенаправленное мышление вместо полного представления мира: выводы из фреймворка REPLACE

Система файлов Fire-Flyer (3FS): Высокопроизводительное решение для AI-тренировок и вывода данных

Расширение для браузера с открытым исходным кодом, делающее искусственный интеллект доступным прямо там, где вам это нужно

Политика конфиденциальности

Отказ от ответственности

Доступность

Пресс-релизы

Реклама

Подписка