Новая версия Llama 3.2: Раскрытие потенциала искусственного интеллекта с помощью легких текстовых моделей и моделей зрения для приложений на устройствах и в мобильных сетях.

 Llama 3.2 Released: Unlocking AI Potential with 1B and 3B Lightweight Text Models and 11B and 90B Vision Models for Edge, Mobile, and Multimodal AI Applications






Решения искусственного интеллекта

Решения искусственного интеллекта для вашего бизнеса

Практические применения и ценность

Спрос на настраиваемые, открытые модели, способные эффективно работать на различных аппаратных платформах, растет, и Meta стоит во главе удовлетворения этого спроса. Llama 3.2 представляет собой релиз с открытым исходным кодом, включающий небольшие и средние модели LLM для зрения (11B и 90B), а также легкие текстовые модели (1B и 3B), предназначенные для краевых и мобильных устройств. Эти модели оптимизированы для различных задач, включая приложения только для текста и на основе зрения, и специально разработаны для краевых устройств, делая ИИ более доступным для разработчиков и предприятий.

Выпущенные варианты моделей

Llama 3.2 выпустила две категории моделей в этой версии серии Llama:

Модели для зрения LLM (11B и 90B): Это самые крупные модели для сложных задач анализа изображений, такие как понимание на уровне документа, визуальное позиционирование и подписывание изображений. Они конкурентоспособны с другими закрытыми моделями на рынке и превосходят их в различных бенчмарках понимания изображений.

Легкие текстовые модели LLM (1B и 3B): Эти более компактные модели разработаны для приложений ИИ на краю. Они обеспечивают надежную производительность для задач суммирования, следования инструкциям и переписывания запросов, сохраняя при этом низкую вычислительную нагрузку. Модели также имеют длину контекста токена 128 000, что значительно улучшает предыдущие версии.

Обе версии этих моделей, как предварительно обученные, так и настроенные по инструкции, доступны для загрузки, с поддержкой от Qualcomm, MediaTek и Arm, обеспечивая возможность разработчикам развертывать эти модели непосредственно на мобильных и краевых устройствах. Модели были сделаны доступными для немедленной загрузки и использования через llama.com, Hugging Face и партнерские платформы, такие как AMD, AWS, Google Cloud и Dell.

Технические достижения и поддержка экосистемы

Одним из наиболее заметных улучшений в Llama 3.2 является введение архитектуры на основе адаптеров для моделей для зрения, где в кодировщики изображений интегрированы предварительно обученные текстовые модели. Эта архитектура позволяет глубокому анализу данных изображений и текста, значительно расширяя область применения этих моделей. Предварительно обученные модели прошли обширное донастройка, включая обучение на масштабных шумных данных пар изображений и текста и последующее обучение на высококачественных, внедоменных наборах данных.

Критическим фактором в революционном потенциале Llama 3.2 является его сильная поддержка экосистемы. С партнерством с ведущими технологическими компаниями, AWS, Databricks, Dell, Microsoft Azure, NVIDIA и другими, Llama 3.2 оптимизирована как для локальных, так и для облачных сред. Распределения Llama Stack упрощают развертывание для разработчиков, предлагая готовые решения для краевых, облачных и локальных сред. Распределения, такие как PyTorch ExecuTorch для развертывания на устройствах и Ollama для одиночных узлов, дополнительно подтверждают гибкость этих моделей.

Продолжение следует…



Полезные ссылки: