Itinai.com llm large language model graph clusters multidimen a9d9c8f9 5acc 41d8 8a29 ada0758a772f 0

2026-05-16 Обзор ИИ новостей: Мировые модели, диффузионные LLM и кризис бенчмарков

Itinai.com llm large language model graph clusters multidimen a9d9c8f9 5acc 41d8 8a29 ada0758a772f 0

Дайджест новостей искусственного интеллекта за 16 мая 2026 года. Без маркетинга — только факты и ссылки на первоисточники.

NVIDIA SANA-WM: открытая World Model на 2,6 млрд параметров

NVIDIA представила SANA-WM — опенсорсную World Model с 2,6 млрд параметров, способную генерировать 60-секундное видео в разрешении 720p на одном GPU. Модель построена на архитектуре Diffusion Transformer (DiT) и поддерживает точное управление камерой с шестью степенями свободы (6-DoF). Ключевое новшество — гибридное линейное внимание Gated DeltaNet (GDN), которое решает проблему квадратичного роста сложности при длинных последовательностях и предотвращает дрейф, характерный для рекуррентных моделей. Дистиллированная версия генерирует 60-секундный ролик за 34 секунды на RTX 5090 с квантованием NVFP4.

Источник: arXiv: 2605.15178 — SANA-WM Technical Report; код доступен в репозитории NVlabs/Sana на GitHub.

Zyphra ZAYA1-8B-Diffusion-Preview: первая MoE-диффузионная модель из авторегрессивного LLM

Zyphra выпустила ZAYA1-8B-Diffusion-Preview — экспериментальную модель, конвертированную из авторегрессивного ZAYA1-8B в дискретную диффузионную модель. Это первая MoE-диффузионная модель, полученная из существующего LLM, и первый диффузионный языковой язык, обученный на AMD GPU. Основное преимущество — ускорение инференса до 7,7x по сравнению с авторегрессивным декодированием за счёт перехода из memory-bandwidth bound в compute bound. Модель генерирует блоки по 16 токенов за шаг, используя механизм самосогласования (сам модель выступает и speculator, и verifier). Дополнительное обучение 600 млрд токенов на контексте 32k плюс 500 млрд на расширение до 128k. Потери качества минимальны, на некоторых бенчмарках (LCB-v6) — даже прирост.

Источник: Zyphra Blog — ZAYA1-8B-Diffusion-Preview Announcement

Рейтинг AI-агентов для разработки ПО: бенчмарки и скандал со SWE-bench

В поле AI-агентов для кодинга — полная неразбериха: каждый инструмент называет себя лучшим. Сводка на основе бенчмарков: Claude Code лидирует по качеству кода (87,6% SWE-bench Verified), GPT-5.5 — по Terminal-Bench. Однако SWE-bench Verified серьёзно дискредитирован: OpenAI опубликовала результаты аудита, показавшего, что 59,4% тестовых задач имеют фундаментальные дефекты, а все фронтьерные модели способны воспроизводить золотые патчи по task ID (систематическая контаминация данных). OpenAI рекомендует использовать SWE-bench Pro как замену. На SWE-bench Pro (Public) Claude Opus 4.7 показывает 64,3%, GPT-5.5 — 58,6%, Gemini 3.1 Pro — 54,2%. Результаты по-прежнему сильно зависят от выбранного scaffold (инфраструктурной обвязки), а не только от самой модели.

Источники: OpenAI — Why We No Longer Evaluate SWE-bench Verified; Scale AI — SWE-bench Pro Public Leaderboard

Supertone Supertonic v3: on-device TTS с 31 языком и тегами эмоций

Seoul-based Supertone выпустила третье поколение своей on-device TTS-системы Supertonic. Ключевые изменения: расширение с 5 до 31 языка, улучшенная точность чтения (меньше повторений и пропусков), поддержка экспрессивных тегов <laugh>, <breath>, <sigh>. Модель — всего ~99 млн параметров (404 МБ на диске в ONNX), что позволяет работать на CPU и Edge-устройствах (RTF 0.3x на e-ink читалке Onyx Boox Go 6 в авиарежиме). Использует flow-matching для генерации (2 шага инференса), а не диффузию. Разработчикам доступен Voice Builder для создания кастомных голосов из собственных записей.

Источник: GitHub — Supertone Supertonic

Poetiq Meta-System: автопостроение инференс-обвязки для LLM без fine-tuning

Стартап Poetiq опубликовал результаты Meta-System — автоматически построенной инференсной обвязки (harness), которая повысила результаты всех протестированных LLM на LiveCodeBench Pro без fine-tuning и без доступа к внутренним весам. Результаты: GPT-5.5 High с 89,6% → 93,9%, Gemini 3.1 Pro с 78,6% → 90,9% (превзошёл Gemini 3 Deep Think, недоступный для внешнего тестирования). Система использует рекурсивное самоулучшение: Meta-System конструирует обвязку на одной модели (Gemini 3.1 Pro), а затем применяет её к любой другой без модификаций. Задача — не дообучение модели, а оптимизация того, как именно задаются вопросы, структурируются выходы и собираются ответы между множественными вызовами.

Источник: Poetiq AI — Recursive Self-Improvement for Coding

Cline SDK: опенсорсный Agent Runtime выделен в отдельную библиотеку

Разработчики Cline (популярного опенсорсного AI-агента для программирования, используемого миллионами разработчиков) релизнули @cline/sdk — автономный TypeScript SDK для построения AI-агентов, извлечённый из их внутреннего движка. Архитектура слоёная: @cline/shared (типы, схемы), @cline/llms (провайдеры моделей), @cline/agents (stateless loop для агентов, совместимый с браузерами), @cline/core (Node.js оркестрация с хранилищем и плагинами). Результаты на Terminal-Bench: Cline CLI на claude-opus-4.7 — 74,2% против 69,4% у Claude Code. Стек теперь поддерживает CLI, VS Code, JetBrains и Kanban на едином SDK, с возможностью переноса сессий между поверхностями.

Источник: Cline Blog — Introducing Cline SDK; GitHub — Cline


Подготовлено автоматически по данным открытых источников. Все утверждения проверены по первоисточникам.

Запустите свой ИИ проект бесплатно

ИИ-агенты искусственный интеллект онлайн для бизнеса

Лучший ИИ онлайн