“`html
DeepSeek-V2-0628: Улучшенная открытая версия DeepSeek-V2
DeepSeek недавно выпустил свою последнюю открытую модель на Hugging Facel, DeepSeek-V2-Chat-0628. Этот релиз является значительным прорывом в возможностях технологии генерации текста и чат-ботов, позиционируя DeepSeek на передовых позициях в отрасли.
Преимущества модели DeepSeek-V2-Chat-0628
Модель DeepSeek-V2-Chat-0628 представляет собой улучшенную версию предыдущей модели DeepSeek-V2-Chat. Эта новая версия была тщательно доработана для достижения высокой производительности по различным критериям. Согласно рейтингу LMSYS Chatbot Arena Leaderboard, DeepSeek-V2-Chat-0628 заняла впечатляющее общее 11-е место, превзойдя все другие открытые модели. Это подчеркивает приверженность DeepSeek к развитию области искусственного интеллекта и предоставлению высококлассных решений для приложений конверсационного ИИ.
Улучшения в модели DeepSeek-V2-Chat-0628
Улучшения в модели DeepSeek-V2-Chat-0628 охватывают различные критические аспекты функциональности модели. Особенно стоит отметить значительное улучшение модели по нескольким критериям тестирования:
- HumanEval: Оценка улучшилась с 81.1 до 84.8, что отражает прирост на 3.7 пункта.
- MATH: Заметный скачок с 53.9 до 71.0, указывающий на улучшение на 17.1 пункта.
- BBH: Рост показателя производительности с 79.7 до 83.4, обозначающий улучшение на 3.7 пункта.
- IFEval: Значительный прирост с 63.8 до 77.6, улучшение на 13.8 пункта.
- Arena-Hard: Проявило самое значительное улучшение, с оценкой, возросшей с 41.6 до 68.3, увеличение на 26.7 пункта.
- JSON Output (Internal): Улучшение с 78 до 85, показывающее прирост на 7 пунктов.
Модель DeepSeek-V2-Chat-0628 также обладает оптимизированными возможностями следования инструкциям в области “системы”, значительно улучшая пользовательский опыт. Это улучшение полезно для задач, таких как иммерсивный перевод и Retrieval-Augmented Generation (RAG), обеспечивая пользователям более интуитивное и эффективное взаимодействие с ИИ.
Внедрение модели DeepSeek-V2-Chat-0628
Для развертывания модели DeepSeek-V2-Chat-0628 требуется 80GB*8 GPU для вывода в формате BF16. Пользователи могут использовать Huggingface’s Transformers для вывода модели, что включает импорт необходимых библиотек и настройку модели и токенизатора с соответствующими конфигурациями. По сравнению с предыдущими версиями, полный шаблон чата был обновлен, улучшая генерацию ответов модели и возможности взаимодействия. Новый шаблон включает конкретное форматирование и настройки токенов, обеспечивающие более точные и актуальные выводы на основе ввода пользователя.
Для вывода модели рекомендуется использовать vLLM, который предлагает упрощенный подход к интеграции модели в различные приложения. Настройка vLLM включает объединение запроса на включение в базу кода vLLM и настройку модели и токенизатора для эффективной обработки желаемых задач.
Модель DeepSeek-V2-Chat-0628 доступна по лицензии MIT для репозитория кода, а сама модель подпадает под Лицензию на модель. Это позволяет коммерческое использование серии DeepSeek-V2, включая базовые и чат-модели, делая их доступными для бизнеса и разработчиков, стремящихся интегрировать передовые возможности ИИ в свои продукты и услуги.
Заключение
Релиз DeepSeek-V2-Chat-0628 демонстрирует постоянное стремление компании к инновациям в области искусственного интеллекта. С впечатляющими показателями производительности и улучшенным пользовательским опытом эта модель готова установить новые стандарты в области конверсационного ИИ.
Проверьте Model Card и API. Вся заслуга за этот проект принадлежит исследователям. Также не забудьте подписаться на наш Twitter и присоединиться к нашему Telegram Channel и LinkedIn Group. Если вам нравится наша работа, вам понравится наш newsletter.
Не забудьте присоединиться к нашему 46k+ ML SubReddit.
Найдите предстоящие вебинары по ИИ здесь.
Оригинал статьи: DeepSeek-V2-0628 Released: An Improved Open-Source Version of DeepSeek-V2.