Появление многомодальных больших языковых моделей (MLLM), таких как GPT-4 и Gemini, вызвало значительный интерес к объединению понимания языка с различными модальностями, такими как зрение. Это объединение предлагает потенциал для различных приложений, от инкорпорированного интеллекта до агентов с графическим интерфейсом. Несмотря на быстрое развитие открытых исходных MLLM, таких как BLIP и LLaMA-Adapter, их производительность может быть улучшена за счет большего объема обучающих данных и параметров модели. Хотя некоторые отлично справляются с пониманием естественных изображений, им требуется помощь в выполнении задач, требующих специализированных знаний. Более того, текущие размеры моделей могут быть не подходящими для мобильного развертывания, что требует исследования более компактных и более параметрически насыщенных архитектур для более широкого принятия и улучшения производительности.
Исследователи из Шанхайской лаборатории искусственного интеллекта, MMLab, CUHK, Рутгерсского университета и Университета Калифорнии, Лос-Анджелес, разработали SPHINX-X, передовую серию MLLM, построенную на основе фреймворка SPHINX. Улучшения включают оптимизацию архитектуры путем удаления избыточных визуальных кодировщиков, оптимизацию эффективности обучения с помощью пропусков для полностью заполненных подизображений и переход к одноступенчатой парадигме обучения. SPHINX-X использует разнообразный мультимодальный набор данных, дополненный отобранными данными OCR и набором данных Set-of-Mark, и обучается на различных базовых LLM, предлагая ряд размеров параметров и мультиязычные возможности. Результаты бенчмаркинга подчеркивают превосходство SPHINX-X в обобщении задач, устраняя предыдущие ограничения MLLM и оптимизируя эффективное обучение на большом масштабе мультимодальных данных.
Недавние достижения в области LLM использовали архитектуры трансформера, примечательно продемонстрированные 175 миллиардами параметров GPT-3. Другие модели, такие как PaLM, OPT, BLOOM и LLaMA, последовали этому примеру, с инновациями, такими как оконное внимание Mistral и разреженные слои MoE Mixtral. Параллельно появились двуязычные LLM, такие как Qwen и Baichuan, в то время как TinyLlama и Phi-2 фокусируются на сокращение параметров для развертывания на краю. Тем временем MLLM интегрируют не-текстовые кодировщики для визуального понимания, с моделями, такими как BLIP, Flamingo и серия LLaMA-Adapter, расширяющими границы объединения зрения и языка. Тонконастраиваемые MLLM, такие как Shikra и VisionLLM, отлично справляются с конкретными задачами, в то время как другие расширяют LLM на различные модальности.
MLLM SPHINX-X демонстрируют передовую производительность в различных мультимодальных задачах, включая математическое рассуждение, сложное понимание сцен, задачи низкоуровневого зрения, оценку визуального качества и устойчивость к иллюзиям. Комплексное тестирование показывает сильную корреляцию между мультимодальной производительностью MLLM и масштабами данных и параметров, используемых в обучении. Исследование представляет производительность SPHINX-X на отобранных бенчмарках, таких как HallusionBench, AesBench, ScreenSpot и MMVP, демонстрируя его возможности в генерации языка, визуальных иллюзий, визуального восприятия, локализации элементов графического интерфейса и визуального понимания.
В заключение, SPHINX-X значительно продвигает MLLM, основанный на фреймворке SPHINX. Благодаря улучшениям в архитектуре, эффективности обучения и обогащению набора данных, SPHINX-X демонстрирует превосходную производительность и обобщение по сравнению с оригинальной моделью. Увеличение параметров дополнительно усиливает его мультимодальные возможности понимания. Публикация кода и моделей на GitHub способствует воспроизведению и дальнейшему исследованию. С улучшениями, включая оптимизированную архитектуру и обширный набор данных, SPHINX-X предлагает надежную платформу для многоточечной настройки мультимодальных инструкций на различных масштабах параметров, проливая свет на будущие исследования MLLM.
Если вам нужны рекомендации по управлению ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.com. Чтобы быть в курсе последних новостей об ИИ, подписывайтесь на наш Telegram-канал t.me/itinairu.
Посмотрите на практический пример решения на основе ИИ: бот для продаж от itinai.ru/aisales, созданный для автоматизации общения с клиентами круглосуточно и управления взаимодействием на всех этапах пути клиента.
Изучите, как искусственный интеллект может улучшить ваши продажи и общение с клиентами. Познакомьтесь с нашими решениями на сайте itinai.ru.