2026-05-01 Обзор ИИ новостей: ИИ ускорен в 2.22 раза: прорывы недели от Moonshot, Microsoft и IBM

Moonshot AI открыла исходный код FlashKDA: ускорение внимания для Kimi Linear на 2.22×

Команда Moonshot AI выпустила FlashKDA — высокопроизводительное ядро CUDA на основе CUTLASS для механизма внимания Kimi Delta Attention (KDA). Библиотека доступна на GitHub под лицензией MIT и обеспечивает ускорение предзаполнения от 1.72× до 2.22× по сравнению с базовым flash-linear-attention на GPU NVIDIA H20. FlashKDA работает как drop-in бекенд для популярной библиотеки flash-linear-attention, не требуя изменений в существующем коде.

Kimi Delta Attention — это вклад Moonshot AI в область линейных механизмов внимания, который уточняет Gated DeltaNet с помощью каналово-ориентированного гейтинга. Этот механизм лежит в основе гибридной модели Kimi Linear с 48 млрд общего и 3 млрд активированных параметров, которая снижает использование KV-кэша на 75% и увеличивает пропускную способность декодирования в 6 раз при контексте длиной 1 миллион токенов. Ядро поддерживает переменную длину батчинга через параметр cu_seqlens, что критически важно для высокопроизводительных систем обслуживания выводов.

Исходный код FlashKDA на GitHub

Microsoft Research представила World-R1: обучение с подкреплением для 3D-согласованности в генерации видео

Исследователи из Microsoft Research и Чжэцзянского университета представили World-R1 — фреймворк, который выравнивает генерацию видео с 3D-ограничениями с помощью усиленного обучения, не изменяя базовой архитектуры модели. World-R1 использует адаптацию GRPO для моделей потокового сопоставления (Flow-GRPO-Fast) и обучается на синтетическом наборе纯-text промптов, чтобы диссоциировать обучение 3D от визуальных смещений конкретных корпусов.

Система награды World-R1 основана на анализе через синтез: каждая сгенерированная видеосекунда поднимается к представлению 3D Гауссов Сплетинг через Depth Anything 3, затем оценивается по трём осям — правдоподобию с мета-позиции (оценка Qwen3-VL), верности реконструкции (1 − LPIPS) и соответствию траектории камеры. Для предотвращения коллапса качества добавлена эстетическая награда HPSv3. Управление камерой достигается через обертывание шума (Go-with-the-Flow парадигма), где токены движения в промпте проецируются в 2D оптический поток для транспортировки начального латентного представления.

Научная статья на arXiv | Исходный код на GitHub | Страница проекта

IBM выпустила парольные модели распознавания речи Granite Speech 4.1 2B: выбор между точностью и скоростью

IBM выпустила два открытых модели распознавания речи ~2 млрд параметров под лицензией Apache 2.0: Granite Speech 4.1 2B (авторегрессивная) и Granite Speech 4.1 2B-NAR (неавторегрессивная). Авторегрессивная модель достигает среднего WER 5.33 на таблице лидеров Open ASR, поддерживает 6 языков (включая японский), двусторонний перевод речи, ключевое смещение и постановку знаков препинания, конкурируя с моделями значительно большего размера.

Неавторегрессивная версия жертвует возможностями ради скорости: она исключает японский язык, двусторонний перевод речи и ключевое смещение, но достигает коэффициента реального времени (RTFx) около 1820 на одном GPU H100 — что означает расшифровку часового аудиофайла за менее чем две секунды. Эта модель использует архитектуру NLE (Non-autoregressive LLM-based Editing), где гипотеза CTC редактируется за один прямой проход Bidirectional LLM. Архитектура обеих моделей включает 16-слойный Conformer энкодер с dual-head CTC, 2-слойный оконный Q-Former проектор и дообученную языковую модель granite-4.0-1b-base. Также существует вариант 2B-Plus с говорящим-априорным ASR и временными метками на уровне слов.

Granite Speech 4.1 2B на Hugging Face | Granite Speech 4.1 2B-NAR на Hugging Face

Сотрудничество

Бесплатный ИИ текст генератор

Спросить ИИ чат

Заказать разработку

03.05.2026

Владимир Дьячков PhD

Новости ИИ

FlashKDA, Granite Speech, IBM, Microsoft Research, Moonshot AI, World-R1

25.11.2024

Лучшие ИИ

Ученые Токийского университета предложили алгоритм FlexFlood для быстрого обновления данных при изменении их распределения.

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ
24.07.2024

Лучшие ИИ

DVC.ai выпустил DataChain: библиотеку на Python для обработки и систематизации больших объемов неструктурированных данных.

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ
03.11.2024

Лучшие ИИ

Эффективный вызов функций в маломасштабных LLM: революция в задачах AI-рассуждений

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ
27.07.2025

Лучшие ИИ

Создание контекстно-осведомленной многоагентной ИИ-системы с использованием Nomic embeddings и Gemini LLM

Введение Современный бизнес сталкивается с растущей необходимостью интеграции искусственного интеллекта в повседневные процессы. Построение контекстно-осознанной многопользовательской AI-системы с использованием Nomic embeddings и Gemini LLM открывает новые горизонты для…
07.09.2024

Лучшие ИИ

DeepSeek-V2.5: Новая версия с улучшенными возможностями

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ
29.04.2025

Лучшие ИИ

VERSA: Новый стандарт оценки качества звука, речи и музыки

Команда WAVLab представляет VERSA: Комплексный и Универсальный Инструмент для Оценки Речи, Аудио и Музыкальных Сигналов Модели искусственного интеллекта достигли значительных успехов в генерации речи, музыки и других форм…
12.10.2025

Лучшие ИИ

ROMA: Открытая платформа для создания интеллектуальных агентов с иерархическим выполнением задач

Введение в ROMA: новейшие возможности в области ИИ Современные технологии искусственного интеллекта меняют подходы к автоматизации бизнес-процессов. Одним из самых интересных решений становится ROMA — открытая платформа для…
22.06.2024

Лучшие ИИ

Исследователи из Стэнфорда запускают Nuclei.io: улучшение сотрудничества между искусственным интеллектом и врачами для создания более точных патологических наборов данных и моделей.

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ

2026-05-01 Обзор ИИ новостей: ИИ ускорен в 2.22 раза: прорывы недели от Moonshot, Microsoft и IBM

Moonshot AI открыла исходный код FlashKDA: ускорение внимания для Kimi Linear на 2.22×

Microsoft Research представила World-R1: обучение с подкреплением для 3D-согласованности в генерации видео

IBM выпустила парольные модели распознавания речи Granite Speech 4.1 2B: выбор между точностью и скоростью

Запустите свой ИИ проект бесплатно

Монетизация AI в нише эзотерики

Как зарабатывать на AI в нише психологии

Монетизация AI в нише копирайтинга

Как блогеру о психологии начать зарабатывать

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Агент для анализа данных о клиентах : выявление скрытых сегментов

ИИ-Специалист по обучению сотрудников : персонализация обучающих материалов

ИИ-Агент по обработке клиентских запросов : автоматизация поддержки и анализа диалогов

ИИ-Аналитик документов : извлечение данных из контрактов и отчетов

Как написать понятную инструкцию “Как начать работать с продуктом”: ИИ сформирует пошаговый onboarding-текст

Что писать в первом письме клиенту: искусственный интеллект сгенерирует текст под вашу воронку и ЦА

Как системному аналитику собрать требования к интеграции: ИИ предложит чек-лист вопросов по системам

Как составить обучающий курс в формате микрообучения: ИИ предложит сценарий, формат и контроль знаний

Как сравнить альтернативные инвестиции: ИИ рассчитает NPV и IRR по каждому варианту

Как техническому писателю составить глоссарий терминов для IT-продукта: ИИ подберет определения с учетом контекста

Лучший ИИ онлайн

Ученые Токийского университета предложили алгоритм FlexFlood для быстрого обновления данных при изменении их распределения.

DVC.ai выпустил DataChain: библиотеку на Python для обработки и систематизации больших объемов неструктурированных данных.

Эффективный вызов функций в маломасштабных LLM: революция в задачах AI-рассуждений

Создание контекстно-осведомленной многоагентной ИИ-системы с использованием Nomic embeddings и Gemini LLM

DeepSeek-V2.5: Новая версия с улучшенными возможностями

VERSA: Новый стандарт оценки качества звука, речи и музыки

ROMA: Открытая платформа для создания интеллектуальных агентов с иерархическим выполнением задач

Доступность

Реклама

Возврат и гарантии

Политика конфиденциальности

Политика комментариев

Условия использования