МиниCPM-V 2.6: Многофункциональные LLM для изображений и видео на телефоне

 MiniCPM-V 2.6: A GPT-4V Level Multimodal LLMs for Single Image, Multi-Image, and Video on Your Phone

“`html

MiniCPM-V 2.6: Новый уровень мультимодальных LLMs, сравнимый с GPT-4V для работы с одиночными изображениями, множественными изображениями и видео на вашем телефоне

MiniCPM-V 2.6 представляет собой последнюю и самую передовую версию в серии MiniCPM-V, построенную на фреймворках SigLip-400M и Qwen2-7B, имеющую общее количество 8 миллиардов параметров. Эта модель внедряет значительные улучшения в производительности и новые функции, нацеленные на понимание множественных изображений и видео, достигая существенных прогрессов по сравнению с предыдущей версией, MiniCPM-Llama3-V 2.5.

Основные возможности MiniCPM-V 2.6:

  • Лидирующая производительность: MiniCPM-V 2.6 достигает среднего показателя 65,2 на OpenCompass, обширной оценке по восьми популярным бенчмаркам. С 8 миллиардами параметров данная модель превосходит известные собственные модели, такие как GPT-4o mini, GPT-4V, Gemini 1.5 Pro и Claude 3.5 Sonnet в понимании одиночных изображений.
  • Понимание множественных изображений и контекстное обучение: Способная к разговору и рассуждению по множеству изображений, MiniCPM-V 2.6 достигает передовых результатов на бенчмарках для множественных изображений, включая Mantis-Eval, BLINK, Mathverse mv и Sciverse mv. Она также обладает многообещающими способностями к контекстному обучению.
  • Понимание видео: Принимая видеовходы, MiniCPM-V 2.6 предоставляет разговор и плотные подписи для пространственно-временной информации. Она превосходит модели, такие как GPT-4V, Claude 3.5 Sonnet и LLaVA-NeXT-Video-34B на Video-MME, как с субтитрами, так и без них.
  • Мощные возможности OCR: Обрабатывая изображения с различными соотношениями сторон и до 1,8 миллиона пикселей, MiniCPM-V 2.6 устанавливает новый стандарт на OCRBench, превосходя собственные модели, такие как GPT-4o, GPT-4V и Gemini 1.5 Pro. Используя последние техники RLAIF-V и VisCPM, она обеспечивает надежное поведение с значительно более низкими показателями галлюцинаций на Object HalBench, поддерживая многоязычные возможности на английском, китайском, немецком, французском, итальянском и корейском языках.
  • Превосходная эффективность: Несмотря на свои компактные размеры, MiniCPM-V 2.6 обладает передовой плотностью токенов, кодируя изображение с 1,8 миллиона пикселей всего в 640 токенов, на 75% меньше, чем у большинства моделей. Это улучшает скорость вывода, задержку первого токена, использование памяти и энергопотребление, обеспечивая эффективное понимание видео в реальном времени на устройствах, таких как iPad.
  • Простота использования: MiniCPM-V 2.6 универсальна в применении, поддерживая эффективный вывод CPU на локальных устройствах через llama.cpp и ollama, предлагая квантованные модели в форматах int4 и GGUF в 16 размерах, поддержку vLLM для высокопроизводительного и энергоэффективного вывода, доменную тонкую настройку, быструю установку локального веб-демо с помощью Gradio и онлайн-веб-демонстрации.

MiniCPM-V 2.6 представляет собой значительный скачок в машинном обучении для визуального понимания, предлагая беспрецедентную производительность, эффективность и удобство использования при обработке одиночных изображений, множественных изображений и видеозадач.

Посетите HF Model и GitHub. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter и присоединиться к нашему Telegram-каналу и группе LinkedIn. Если вам нравится наша работа, вам понравится и наша рассылка.

Не забудьте присоединиться к нашему сообществу более чем 47 тыс. участников на ML SubReddit.

Найдите предстоящие вебинары по искусственному интеллекту здесь.

Arcee AI выпустила DistillKit: открытый и простой в использовании инструмент для трансформации моделей дистилляции для создания эффективных и высокопроизводительных малых языковых моделей.

Статья MiniCPM-V 2.6: Новый уровень мультимодальных LLMs, сравнимый с GPT-4V для работы с одиночными изображениями, множественными изображениями и видео на вашем телефоне впервые появилась на MarkTechPost.

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте MiniCPM-V 2.6: A GPT-4V Level Multimodal LLMs for Single Image, Multi-Image, and Video on Your Phone.

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.

Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!

“`

Полезные ссылки: