Itinai.com futuristic ui icon design 3d sci fi computer scree 5644fbaa d4d6 428f 950f 9cba83ba298d 2

2026-05-01 Обзор ИИ новостей: ИИ ускорен в 2.22 раза: прорывы недели от Moonshot, Microsoft и IBM

Itinai.com futuristic ui icon design 3d sci fi computer scree 5644fbaa d4d6 428f 950f 9cba83ba298d 2

Moonshot AI открыла исходный код FlashKDA: ускорение внимания для Kimi Linear на 2.22×

Команда Moonshot AI выпустила FlashKDA — высокопроизводительное ядро CUDA на основе CUTLASS для механизма внимания Kimi Delta Attention (KDA). Библиотека доступна на GitHub под лицензией MIT и обеспечивает ускорение предзаполнения от 1.72× до 2.22× по сравнению с базовым flash-linear-attention на GPU NVIDIA H20. FlashKDA работает как drop-in бекенд для популярной библиотеки flash-linear-attention, не требуя изменений в существующем коде.

Kimi Delta Attention — это вклад Moonshot AI в область линейных механизмов внимания, который уточняет Gated DeltaNet с помощью каналово-ориентированного гейтинга. Этот механизм лежит в основе гибридной модели Kimi Linear с 48 млрд общего и 3 млрд активированных параметров, которая снижает использование KV-кэша на 75% и увеличивает пропускную способность декодирования в 6 раз при контексте длиной 1 миллион токенов. Ядро поддерживает переменную длину батчинга через параметр cu_seqlens, что критически важно для высокопроизводительных систем обслуживания выводов.

Исходный код FlashKDA на GitHub

Microsoft Research представила World-R1: обучение с подкреплением для 3D-согласованности в генерации видео

Исследователи из Microsoft Research и Чжэцзянского университета представили World-R1 — фреймворк, который выравнивает генерацию видео с 3D-ограничениями с помощью усиленного обучения, не изменяя базовой архитектуры модели. World-R1 использует адаптацию GRPO для моделей потокового сопоставления (Flow-GRPO-Fast) и обучается на синтетическом наборе纯-text промптов, чтобы диссоциировать обучение 3D от визуальных смещений конкретных корпусов.

Система награды World-R1 основана на анализе через синтез: каждая сгенерированная видеосекунда поднимается к представлению 3D Гауссов Сплетинг через Depth Anything 3, затем оценивается по трём осям — правдоподобию с мета-позиции (оценка Qwen3-VL), верности реконструкции (1 − LPIPS) и соответствию траектории камеры. Для предотвращения коллапса качества добавлена эстетическая награда HPSv3. Управление камерой достигается через обертывание шума (Go-with-the-Flow парадигма), где токены движения в промпте проецируются в 2D оптический поток для транспортировки начального латентного представления.

Научная статья на arXiv | Исходный код на GitHub | Страница проекта

IBM выпустила парольные модели распознавания речи Granite Speech 4.1 2B: выбор между точностью и скоростью

IBM выпустила два открытых модели распознавания речи ~2 млрд параметров под лицензией Apache 2.0: Granite Speech 4.1 2B (авторегрессивная) и Granite Speech 4.1 2B-NAR (неавторегрессивная). Авторегрессивная модель достигает среднего WER 5.33 на таблице лидеров Open ASR, поддерживает 6 языков (включая японский), двусторонний перевод речи, ключевое смещение и постановку знаков препинания, конкурируя с моделями значительно большего размера.

Неавторегрессивная версия жертвует возможностями ради скорости: она исключает японский язык, двусторонний перевод речи и ключевое смещение, но достигает коэффициента реального времени (RTFx) около 1820 на одном GPU H100 — что означает расшифровку часового аудиофайла за менее чем две секунды. Эта модель использует архитектуру NLE (Non-autoregressive LLM-based Editing), где гипотеза CTC редактируется за один прямой проход Bidirectional LLM. Архитектура обеих моделей включает 16-слойный Conformer энкодер с dual-head CTC, 2-слойный оконный Q-Former проектор и дообученную языковую модель granite-4.0-1b-base. Также существует вариант 2B-Plus с говорящим-априорным ASR и временными метками на уровне слов.

Granite Speech 4.1 2B на Hugging Face | Granite Speech 4.1 2B-NAR на Hugging Face

Запустите свой ИИ проект бесплатно

ИИ-агенты искусственный интеллект онлайн для бизнеса

Лучший ИИ онлайн