Liquid AI Open-Sources LFM2: Новое поколение Edge LLMs

В последние годы мир искусственного интеллекта стремительно меняется, и одним из самых ярких примеров этого является выход Liquid AI с их новой моделью LFM2. Эта вторая генерация Liquid Foundation Models (LFM) представляет собой значительный шаг вперед в области edge computing, предлагая оптимизацию производительности для развертывания на устройствах, сохраняя при этом высокие стандарты качества.

Прорывы в производительности

LFM2 устанавливает новые стандарты в области edge AI, достигая значительных улучшений по нескольким параметрам. Модели обеспечивают в два раза более быструю декодировку и предварительное заполнение по сравнению с Qwen3 на архитектурах CPU, что критически важно для приложений в реальном времени. Процесс обучения был оптимизирован, что позволяет достичь в три раза более быстрой тренировки по сравнению с предыдущим поколением LFM, делая LFM2 эффективным инструментом для создания мощных, универсальных AI-систем.

Эти улучшения делают мощный ИИ доступным на устройствах с ограниченными ресурсами. Модели разработаны для обеспечения задержки в миллисекунды, работы в оффлайн-режиме и соблюдения конфиденциальности данных, что особенно важно для таких устройств, как телефоны, ноутбуки, автомобили, роботы и носимые устройства, требующие быстрого принятия решений.

Инновации в гибридной архитектуре

Техническая основа LFM2 заключается в его гибридной архитектуре, которая сочетает в себе свёрточные и внимательные механизмы. Модель использует 16-блочную структуру, состоящую из 10 двойных свёрточных блоков и 6 блоков группового внимания. Этот подход основывается на работе Liquid AI с Liquid Time-constant Networks (LTC), вводя рекуррентные нейронные сети непрерывного времени, модулированные нелинейными входными связями.

Архитектура использует фреймворк Linear Input-Varying (LIV), генерируя веса на лету из входных данных, на которые они действуют. Это позволяет различным слоям функционировать в рамках единой структуры. Свёрточные блоки LFM2 реализуют умножительные ворота и короткие свёртки, создавая линейные системы первого порядка, которые сходятся к нулю после конечного времени.

Широкий ассортимент моделей

LFM2 доступен в трех конфигурациях: 350M, 700M и 1.2B параметров, оптимизированных для различных сценариев развертывания, сохраняя при этом преимущества по эффективности. Все модели были обучены на 10 триллионах токенов, с корпусом, состоящим примерно на 75% из английского, 20% из многоязычного контента и 5% из кодовых данных, собранных из веба и лицензированных материалов.

Методология обучения включает в себя дистилляцию знаний с использованием существующей модели LFM1-7B в качестве учителя. Кросс-энтропия между выходами студента LFM2 и выходами учителя служит основным сигналом обучения на протяжении всего процесса. Длина контекста была увеличена до 32k во время предобучения, что позволяет моделям эффективно обрабатывать более длинные последовательности.

Превосходные результаты на бенчмарках

Результаты оценок показывают, что LFM2 значительно превосходит модели аналогичного размера по нескольким категориям бенчмарков. Модель LFM2-1.2B конкурирует с Qwen3-1.7B, несмотря на то, что имеет на 47% меньше параметров. Аналогично, LFM2-700M превосходит Gemma 3 1B IT, в то время как самая маленькая модель LFM2-350M остается конкурентоспособной с Qwen3-0.6B и Llama 3.2 1B Instruct.

Кроме автоматизированных бенчмарков, LFM2 демонстрирует превосходные разговорные способности в многоповоротных диалогах. Используя набор данных WildChat и оценочную систему LLM-as-a-Judge, LFM2-1.2B показывает значительные преимущества по сравнению с Llama 3.2 1B Instruct и Gemma 3 1B IT, при этом сопоставляясь с производительностью Qwen3-1.7B, несмотря на меньший размер и большую скорость.

Оптимизация развертывания на краю

Модели отлично справляются с реальными сценариями развертывания, будучи экспортированными в несколько фреймворков вывода, включая ExecuTorch от PyTorch и библиотеку llama.cpp с открытым исходным кодом. Тестирование на целевом оборудовании, таком как Samsung Galaxy S24 Ultra и платформы AMD Ryzen, демонстрирует, что LFM2 доминирует на границе Парето по скорости предварительного заполнения и декодирования относительно размера модели.

Эта высокая производительность на CPU эффективно переносится на ускорители, такие как GPU и NPU после оптимизации ядра, что делает LFM2 подходящим для различных аппаратных конфигураций. Эта гибкость критически важна для разнообразной экосистемы edge-устройств, требующих возможностей ИИ на месте.

Заключение

Выход LFM2 решает критическую проблему в области развертывания ИИ, где переход от облачного к edge-инференсу ускоряется. Обеспечивая задержку в миллисекунды, оффлайн-работу и соблюдение конфиденциальности данных, LFM2 открывает новые возможности для интеграции ИИ в потребительскую электронику, робототехнику, умные устройства, финансы, электронную коммерцию и образовательные сектора.

Технические достижения в LFM2 сигнализируют о зрелости технологий edge AI, где компромиссы между возможностями модели и эффективностью развертывания успешно оптимизируются. Поскольку предприятия переходят от облачных LLM к быстрому, приватному и локальному интеллекту, LFM2 занимает позицию основополагающей технологии для следующего поколения устройств и приложений на базе ИИ.