Zyphra выпускает ZAYA1-8B: МоE модель, обученная на AMD оборудовании, демонстрирующая производительность значительно превосходящую её размер
Zyphra представила ZAYA1-8B — модель Mixture of Experts с 760 миллионами активных параметров и 8,4 миллиардами общего числа параметров, обученную полностью на AMD Instinct MI300 оборудовании. Несмотря на небольшое количество активных параметров, модель показывает результаты, сравнимые с передовыми моделями типа DeepSeek-R1-0528, Gemini-2.5-Pro и Claude 4.5 Sonnet на математических и кодовых бенчмарках. Ключевые инновации включают архитектуру MoE++ с сжатой сверточной atención (CCA), MLP-базовый маршрутизатор с PID-балансировкой смещения и обученное масштабирование остатка. Также представлен новый метод test-time compute под названием Markovian RSA, который сочетает рекурсивную сам-агрегацию с марковской chunking-схемой для эффективного рассуждения при фиксированном размере окна контекста.
Технический детальный пост на сайте Zyphra | Веса модели на Hugging Face | Полный технический отчет
Groq-ассистент для исследовательских задач с LangGraph, инструментами и суб-агентами
В туториале показано создание исследовательского ассистента, работающего на бесплатном OpenAI-совместимом API от Groq (модель llama-3.3-70b-versatile). Ассистент интегрирует инструменты для веб-поиска,fetching веб-страниц, работы с файлами, исполнения Python, загрузки навыков и делегирования суб-агентам через LangGraph. Система использует песочницу для изоляции операций и включает долгосрочную память для хранения фактов между запусками. Демонстрируется workflow, где главный агент делегирует фокусированные подзадачи изолированным суб-агентам, каждый из которых имеет определенную роль и ограниченный набор инструментов, что повышает эффективность и поддерживает чистоту контекста главного агента.
Полный код туториала с блокнотом Jupyter
Google выпускает MTP-драфтеры для Gemma 4: ускорение инференса в 3 раза без потери качества
Google представил архитектуру Multi-Token Prediction (MTP) drafters для семейства моделей Gemma 4, использующую спекулятивное декодирование для увеличения скорости инференса до 3х без деградации качества вывода. Легкая drafter модель предлагает несколько будущих токенов одновременно, а целевая модель проверяет их все за один проход Forward, принимая последовательность при согласии и генерируя дополнительный токен. Drafterы совместно используют KV-cache и активации целевой модели, а для edge-моделей E2B и E4B применяется техники кластеризации в слое эмбеддингов для устранения узкого места в финальном расчете логовит. Доступно под лицензией Apache 2.0, веса моделей размещены на Hugging Face и Kaggle.
Официальный блог-post от Google | Коллекция моделей Gemma 4 на Hugging Face
CopilotKit представляет Enterprise Intelligence Platform: управляемая память для агентных приложений
CopilotKit запустила управляемую платформу Enterprise Intelligence, которая добавляет долговременную память к открытому исходному коду CopilotKit stack без необходимости создания собственной инфраструктуры хранения. Основной концепт — «Thread»: первоклассный объект сессии, сохраняющий генеративный UI, human-in-the-loop workflows, shared state, голос, файлы и мультимодальные взаимодействия между сессиями и устройствами. Платформа может быть самостоятельно размещена на Kubernetes с поддержкой SOC 2 Type II compliance, SSO и 역할-базированного контроля доступа; управляемый облачный вариант находится в разработке. Планируются слои Analytics & Insights (реальное время мониторинга, SQL-запросы к data lakehouse) и Self-Improvement (непрерывное обучение на основе человеческой обратной связи).
Официальный сайт платформы Enterprise Intelligence | Исходный код CopilotKit на GitHub
OpenAI представляет MRC: новый сетевой протокол для надежного обучения крупномасштабных ИИ суперкомпьютеров
OpenAI, совместно с AMD, Broadcom, Intel, Microsoft и NVIDIA, выпустила MRC (Multipath Reliable Connection) — сетевой протокол, решающий проблему узкого места в коммуникациях при обучении больших ИИ моделей. MRC расширяет RoCE (RDMA over Converged Ethernet) тремя ключевыми механизмами: 1) распыление пакетов по сотням путей одновременно для устранения перегрузок; 2) восстановление после сбоев на микросекундном уровне через SRv6 статическое source routing; 3) multi-plane топология, позволяющая соединять более 131 000 GPU используя лишь два уровня коммутаторов вместо трех-четырех. Протокол уже используется в продакшене на суперкомпьютерах OpenAI (включая сайты OCI в Abilene и Microsoft Fairwater) для обучения моделей вроде ChatGPT и Codex.
Полный научный документ (PDF) | Технические детали на сайте OpenAI




















