✅ Встречайте SPHINX-X: обширная серия многомодальных больших языковых моделей (MLLM), разработанных на основе SPHINX

Появление многомодальных больших языковых моделей (MLLM), таких как GPT-4 и Gemini, вызвало значительный интерес к объединению понимания языка с различными модальностями, такими как зрение. Это объединение предлагает потенциал для различных приложений, от инкорпорированного интеллекта до агентов с графическим интерфейсом. Несмотря на быстрое развитие открытых исходных MLLM, таких как BLIP и LLaMA-Adapter, их производительность может быть улучшена за счет большего объема обучающих данных и параметров модели. Хотя некоторые отлично справляются с пониманием естественных изображений, им требуется помощь в выполнении задач, требующих специализированных знаний. Более того, текущие размеры моделей могут быть не подходящими для мобильного развертывания, что требует исследования более компактных и более параметрически насыщенных архитектур для более широкого принятия и улучшения производительности.

Исследователи из Шанхайской лаборатории искусственного интеллекта, MMLab, CUHK, Рутгерсского университета и Университета Калифорнии, Лос-Анджелес, разработали SPHINX-X, передовую серию MLLM, построенную на основе фреймворка SPHINX. Улучшения включают оптимизацию архитектуры путем удаления избыточных визуальных кодировщиков, оптимизацию эффективности обучения с помощью пропусков для полностью заполненных подизображений и переход к одноступенчатой парадигме обучения. SPHINX-X использует разнообразный мультимодальный набор данных, дополненный отобранными данными OCR и набором данных Set-of-Mark, и обучается на различных базовых LLM, предлагая ряд размеров параметров и мультиязычные возможности. Результаты бенчмаркинга подчеркивают превосходство SPHINX-X в обобщении задач, устраняя предыдущие ограничения MLLM и оптимизируя эффективное обучение на большом масштабе мультимодальных данных.

Недавние достижения в области LLM использовали архитектуры трансформера, примечательно продемонстрированные 175 миллиардами параметров GPT-3. Другие модели, такие как PaLM, OPT, BLOOM и LLaMA, последовали этому примеру, с инновациями, такими как оконное внимание Mistral и разреженные слои MoE Mixtral. Параллельно появились двуязычные LLM, такие как Qwen и Baichuan, в то время как TinyLlama и Phi-2 фокусируются на сокращение параметров для развертывания на краю. Тем временем MLLM интегрируют не-текстовые кодировщики для визуального понимания, с моделями, такими как BLIP, Flamingo и серия LLaMA-Adapter, расширяющими границы объединения зрения и языка. Тонконастраиваемые MLLM, такие как Shikra и VisionLLM, отлично справляются с конкретными задачами, в то время как другие расширяют LLM на различные модальности.

MLLM SPHINX-X демонстрируют передовую производительность в различных мультимодальных задачах, включая математическое рассуждение, сложное понимание сцен, задачи низкоуровневого зрения, оценку визуального качества и устойчивость к иллюзиям. Комплексное тестирование показывает сильную корреляцию между мультимодальной производительностью MLLM и масштабами данных и параметров, используемых в обучении. Исследование представляет производительность SPHINX-X на отобранных бенчмарках, таких как HallusionBench, AesBench, ScreenSpot и MMVP, демонстрируя его возможности в генерации языка, визуальных иллюзий, визуального восприятия, локализации элементов графического интерфейса и визуального понимания.

В заключение, SPHINX-X значительно продвигает MLLM, основанный на фреймворке SPHINX. Благодаря улучшениям в архитектуре, эффективности обучения и обогащению набора данных, SPHINX-X демонстрирует превосходную производительность и обобщение по сравнению с оригинальной моделью. Увеличение параметров дополнительно усиливает его мультимодальные возможности понимания. Публикация кода и моделей на GitHub способствует воспроизведению и дальнейшему исследованию. С улучшениями, включая оптимизированную архитектуру и обширный набор данных, SPHINX-X предлагает надежную платформу для многоточечной настройки мультимодальных инструкций на различных масштабах параметров, проливая свет на будущие исследования MLLM.

Если вам нужны рекомендации по управлению ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.com. Чтобы быть в курсе последних новостей об ИИ, подписывайтесь на наш Telegram-канал t.me/itinairu.

Посмотрите на практический пример решения на основе ИИ: бот для продаж от itinai.ru/aisales, созданный для автоматизации общения с клиентами круглосуточно и управления взаимодействием на всех этапах пути клиента.

Изучите, как искусственный интеллект может улучшить ваши продажи и общение с клиентами. Познакомьтесь с нашими решениями на сайте itinai.ru.

Встречайте SPHINX-X: обширная серия многомодальных больших языковых моделей (MLLM), разработанных на основе SPHINX

Полезные ссылки:

Запустите свой ИИ проект бесплатно

Как зарабатывать на AI в нише психологии

Монетизация Telegram-канала с цитатами и мотивацией

Монетизация AI в нише репетиторства по английскому

Как блогеру о психологии начать зарабатывать

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Специалист по обучению сотрудников : персонализация обучающих материалов

ИИ-Агент по анализу отзывов : мониторинг мнений в соцсетях и на маркетплейсах

ИИ-Специалист по автоматизации технической поддержки : диагностика и решение проблем

ИИ-Специалист по автоматизации электронной коммерции : оптимизация карточек товаров

Как собрать инсайты из отзывов клиентов: ИИ выделит паттерны и ключевые фразы

Как системному аналитику вести backlog требований: ИИ предложит структуру и статусные поля

Как подготовить бриф для дизайнера под рекламную кампанию: ИИ предложит шаблон и вопросы

Как описать правила валидации данных: ИИ предложит список проверок по каждому полю

Как администратору контролировать наличие товара на полках: искусственный интеллект создаст маршрут проверки и чек-лист

Как составить обучающий курс в формате микрообучения: ИИ предложит сценарий, формат и контроль знаний

Лучший ИИ онлайн

Модель Dream 7B от Huawei: Прорыв в области диффузионного обучения и планирования

Исследователи UBC представили ‘Первое Исследование’: Два подхода к обучению для спасения мета-обучения RL от неудачных исследований

Инновационные AI-решения для CleverPumpkin

«Introducing RAGTune: an innovative tool designed to automate tuning and optimization for the RAG (Retrieval-Augmented Generation) pipeline. With RAGTune, streamline your workflow and improve efficiency, ensuring top-notch performance and results. #RAG #Optimization #AI»

Сколько научных статей написано с помощью ChatGPT?

ETH Zurich’s робот осваивает лабиринт с помощью машинного обучения

Новый метод управления видео от Google DeepMind: «Motion Prompting» для бизнеса и медиа

Веб-агенты нового поколения: как WebChoreArena меняет подход к оценке их возможностей

Авторские права

Куки-политика

Редакционная политика

Реклама

Политика конфиденциальности

О нас