Itinai.com tech style imagery of information flow layered ove 07426e6d 63e5 4f7b 8c4e 1516fd49ed60 1

2026-05-07 Обзор ИИ новостей: AMD, Groq и OpenAI: как новые чипы и протоколы меняют ландшафт ИИ

Itinai.com tech style imagery of information flow layered ove 07426e6d 63e5 4f7b 8c4e 1516fd49ed60 1

Zyphra выпускает ZAYA1-8B: МоE модель, обученная на AMD оборудовании, демонстрирующая производительность значительно превосходящую её размер

Zyphra представила ZAYA1-8B — модель Mixture of Experts с 760 миллионами активных параметров и 8,4 миллиардами общего числа параметров, обученную полностью на AMD Instinct MI300 оборудовании. Несмотря на небольшое количество активных параметров, модель показывает результаты, сравнимые с передовыми моделями типа DeepSeek-R1-0528, Gemini-2.5-Pro и Claude 4.5 Sonnet на математических и кодовых бенчмарках. Ключевые инновации включают архитектуру MoE++ с сжатой сверточной atención (CCA), MLP-базовый маршрутизатор с PID-балансировкой смещения и обученное масштабирование остатка. Также представлен новый метод test-time compute под названием Markovian RSA, который сочетает рекурсивную сам-агрегацию с марковской chunking-схемой для эффективного рассуждения при фиксированном размере окна контекста.

Технический детальный пост на сайте Zyphra | Веса модели на Hugging Face | Полный технический отчет

Groq-ассистент для исследовательских задач с LangGraph, инструментами и суб-агентами

В туториале показано создание исследовательского ассистента, работающего на бесплатном OpenAI-совместимом API от Groq (модель llama-3.3-70b-versatile). Ассистент интегрирует инструменты для веб-поиска,fetching веб-страниц, работы с файлами, исполнения Python, загрузки навыков и делегирования суб-агентам через LangGraph. Система использует песочницу для изоляции операций и включает долгосрочную память для хранения фактов между запусками. Демонстрируется workflow, где главный агент делегирует фокусированные подзадачи изолированным суб-агентам, каждый из которых имеет определенную роль и ограниченный набор инструментов, что повышает эффективность и поддерживает чистоту контекста главного агента.

Полный код туториала с блокнотом Jupyter

Google выпускает MTP-драфтеры для Gemma 4: ускорение инференса в 3 раза без потери качества

Google представил архитектуру Multi-Token Prediction (MTP) drafters для семейства моделей Gemma 4, использующую спекулятивное декодирование для увеличения скорости инференса до 3х без деградации качества вывода. Легкая drafter модель предлагает несколько будущих токенов одновременно, а целевая модель проверяет их все за один проход Forward, принимая последовательность при согласии и генерируя дополнительный токен. Drafterы совместно используют KV-cache и активации целевой модели, а для edge-моделей E2B и E4B применяется техники кластеризации в слое эмбеддингов для устранения узкого места в финальном расчете логовит. Доступно под лицензией Apache 2.0, веса моделей размещены на Hugging Face и Kaggle.

Официальный блог-post от Google | Коллекция моделей Gemma 4 на Hugging Face

CopilotKit представляет Enterprise Intelligence Platform: управляемая память для агентных приложений

CopilotKit запустила управляемую платформу Enterprise Intelligence, которая добавляет долговременную память к открытому исходному коду CopilotKit stack без необходимости создания собственной инфраструктуры хранения. Основной концепт — «Thread»: первоклассный объект сессии, сохраняющий генеративный UI, human-in-the-loop workflows, shared state, голос, файлы и мультимодальные взаимодействия между сессиями и устройствами. Платформа может быть самостоятельно размещена на Kubernetes с поддержкой SOC 2 Type II compliance, SSO и 역할-базированного контроля доступа; управляемый облачный вариант находится в разработке. Планируются слои Analytics & Insights (реальное время мониторинга, SQL-запросы к data lakehouse) и Self-Improvement (непрерывное обучение на основе человеческой обратной связи).

Официальный сайт платформы Enterprise Intelligence | Исходный код CopilotKit на GitHub

OpenAI представляет MRC: новый сетевой протокол для надежного обучения крупномасштабных ИИ суперкомпьютеров

OpenAI, совместно с AMD, Broadcom, Intel, Microsoft и NVIDIA, выпустила MRC (Multipath Reliable Connection) — сетевой протокол, решающий проблему узкого места в коммуникациях при обучении больших ИИ моделей. MRC расширяет RoCE (RDMA over Converged Ethernet) тремя ключевыми механизмами: 1) распыление пакетов по сотням путей одновременно для устранения перегрузок; 2) восстановление после сбоев на микросекундном уровне через SRv6 статическое source routing; 3) multi-plane топология, позволяющая соединять более 131 000 GPU используя лишь два уровня коммутаторов вместо трех-четырех. Протокол уже используется в продакшене на суперкомпьютерах OpenAI (включая сайты OCI в Abilene и Microsoft Fairwater) для обучения моделей вроде ChatGPT и Codex.

Полный научный документ (PDF) | Технические детали на сайте OpenAI

Запустите свой ИИ проект бесплатно

ИИ-агенты искусственный интеллект онлайн для бизнеса

Лучший ИИ онлайн