Новая семья моделей Meta AI Chameleon устанавливает новый уровень для мультимодельного машинного обучения.

 Meta AI Introduces Chameleon: A New Family of Early-Fusion Token-based Foundation Models that Set a New Bar for Multimodal Machine Learning

“`html

Chameleon: новая семья моделей основанных на токенах с ранним объединением для мультимодального машинного обучения

Недавние модели основанные на мультимодальных основах широко используются, но часто разделяют различные модальности, используя специфические кодировщики или декодеры для каждой из них. Этот подход ограничивает их способность эффективно объединять информацию между модальностями и создавать мультимодальные документы, состоящие из разнообразных последовательностей изображений и текста. В результате возникают ограничения в их способности плавно интегрировать различные типы контента в одном документе.

Практические решения и ценность:

Chameleon – это модель смешанных модальностей, которая облегчает создание и рассуждение с переплетенными текстовыми и изображениями, позволяя комплексное моделирование мультимодальных документов. В отличие от традиционных моделей, Chameleon использует объединенную архитектуру, обрабатывая обе модальности одинаково путем токенизации изображений аналогично тексту. Этот подход, называемый ранним объединением, позволяет плавное рассуждение между модальностями, но представляет определенные вызовы оптимизации. Для их решения исследователи предлагают архитектурные улучшения и методики обучения, адаптируя архитектуру трансформера и стратегии донастройки.

Исследователи разработали новый токенизатор изображений, кодирующий изображения размером 512 × 512 в 1024 токена из 8192-кодового каталога, с акцентом на лицензионные изображения и удвоение изображений с лицами во время предварительного обучения. Однако их токенизатор имеет проблемы с реконструкцией текстово-насыщенных изображений. Также они обучили BPE-токенизатор с 65,536-словарем, включающим изображенные токены, с использованием библиотеки sentencepiece, на подмножестве обучающих данных. Chameleon решает проблемы стабильности с помощью QK-Norm, отсева и регуляризации z-потерь во время обучения, облегчая успешное обучение на RSC Meta. Вывод упрощенной обработки для смешанной генерации модальностей с использованием PyTorch и xformers, поддерживая как потоковые, так и непотоковые режимы с маскировкой токенов для условной логики.

Этап выравнивания, донастраивается на различных наборах данных, включая текст, код, визуальный чат и безопасность, с целью улучшения возможностей модели и безопасности. Они подбирают изображения высокого качества для генерации изображений с использованием эстетического классификатора. Надзорная донастройка (SFT) включает балансировку данных между модальностями, используя косинусное расписание скорости обучения и весовое уменьшение 0.1. Каждый экземпляр в SFT связывает подсказки с соответствующими ответами, оптимизируясь исключительно на основе последних. Применяется отсев 0.05, вместе с регуляризацией z-потерь. Изображения в подсказках изменяются с обрамлением границы, а в ответах обрезаются по центру для генерации изображений высокого качества.

Chameleon оценивает свои возможности только с текстом по сравнению с передовыми моделями, достигая конкурентоспособной производительности в различных задачах, таких как рассуждение о здравом смысле и математика. Он превосходит LLaMa-2 во многих задачах, прибавляя выигрыши за счет лучшего предварительного обучения и включения данных кода. В задачах отображения изображения в текст Chameleon преуспевает в подписывании изображений, сопоставляя или превосходя более крупные модели, такие как Flamingo-80B и IDEFICS-80B с меньшим количеством снимков. В визуальном вопросно-ответном тесте (VQA) он приближается к производительности лучших моделей, хотя Llava-1.5 немного превосходит VQA-v2. Вариативность и эффективность Chameleon делают его конкурентоспособным в различных задачах, требуя меньшего количества примеров обучения и меньших размеров модели.

В заключение, данное исследование представляет Chameleon, модель на основе токенов, достигающую превосходной производительности в задачах видео-языкового взаимодействия путем интеграции изображений и текстовых токенов без проблем. Ее архитектура позволяет совместное рассуждение между модальностями, превосходя модели с поздним объединением, такие как Flamingo и IDEFICS, в задачах подписывания изображений и визуального вопросно-ответного теста. Подход раннего объединения Chameleon представляет новые техники для стабильного обучения, решая предыдущие проблемы масштабируемости. Он открывает новые возможности мультимодального взаимодействия, что подтверждается его высокой производительностью на смешанных мультимодальных бенчмарках открытых вопросов и ответов.

Подробнее ознакомьтесь с статьей. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, Discord и группе в LinkedIn.

Если вам понравилась наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему Reddit с более чем 42 тысячами подписчиков.

Meta AI Introduces Chameleon: A New Family of Early-Fusion Token-based Foundation Models that Set a New Bar for Multimodal Machine Learning

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте Meta AI Introduces Chameleon: A New Family of Early-Fusion Token-based Foundation Models that Set a New Bar for Multimodal Machine Learning.

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.

Попробуйте AI Sales Bot https://itinai.ru/aisales Этот AI ассистент в продажах, помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru будущее уже здесь!

“`

Полезные ссылки: