Zyphra представляет Tensor и Sequence Parallelism (TSP): аппаратно-осознанная стратегия обучения и вывода
Zyphra представила новую технику параллелизма TSP, которая объединяет тензорное и последовательное параллелизм на одной оси устройственного mesh, уменьшая как память весов, так и память активаций на одинаковый коэффициент 1/D. Тестирование на до 1024 GPU AMD MI300X показало 2.6x увеличение пропускной способности по сравнению с традиционными TP+SP подходами при длине контекста 128K токенов. Основное преимущество проявляется в длинно-контекстных сценариях, где память становится bottleneck-ом.
Официальная публикация Zyphra о TSP
ZenML: руководство по созданию production-grade ML пайплайна с кастомными материалайзерами и отслеживанием метаданных
Статья демонстрирует создание комплексного ML пайплайна с использованием ZenML, включая кастомный материалйзер для домен-специфичных объектов, отслеживание метаданных на каждом этапе, fan-out гиперпараметрический поиск и fan-in выбор лучшей модели. Показаны принципы воспроизводимости, прозрачности и эффективности через кешированиеartifacts и версионирование моделей. Подчеркивается важность метаданных для отслеживания lineage и принятия решений в продакшене.
Официальный репозиторий ZenML на GitHub
Обзор поисковых и извлекательных API для AI агентов в 2026: инструменты, компромиссы и бесплатные уровни
Анализ текущего состояния поисковых и извлекательных API для AI агентов выделяет несколько лидеров: TinyFish предлагает лучшее соотношение поиска и извлечения с агент-ориентированным дизайном и низким потреблением токенов; Tavily предоставляет глубокие интеграции с LLM фреймворками; Exa специализируется на семантическом поиске через нейронные эмбеддинги; Firecrawl предлагает открытый источник для тяжелых извлекательных workflows; Jina Reader обеспечивает простейшее преобразование URL в markdown; Serper остается экономичным вариантом для Google SERP данных; Brave фокусируется на приватности с независимым индексом.
Полная статья MarkTechPost (для контекста)
Систематический промптинг: от роли-специфичного prompting до вербализованной семплировки
Статья формализует пять ключевых техник промптинга для production систем: роль-специфичный prompting (назначение persona для фокусировки модели), negative prompting (удаление нежелательного поведения), JSON prompting (структурированный output для кодовой обработки), Attentive Reasoning Queries (ARQ — структурированный чек-лист вопросов) и вербализованная семплировка (множественные гипотезы с уверенностью). Каждая техника решает конкретные failure modes промптинга, переходя от бесполезных объяснений к точным, действиеспособным выводам.
Полная статья MarkTechPost (для контекста)
TaskTrove на Hugging Face: потоковая обработка больших наборов данных для анализа агентов
TaskTrove — это набор данных с 210K примерами агентных задач, доступный через Hugging Face в формате потоковой загрузки для эффективной работы с большими файлами. Статья показывает praktical workflow для обработки задач: потоковая загрузка, парсинг сжатых бинарных blob (tar/zip/json/jsonl/plain text), анализ структуры и метаданных, визуализация результатов. Демонстрируются инструменты для работы с данными без полной загрузки в память, что критично для multi-gigabyte наборов.
TaskTrove dataset на Hugging Face
Sakana AI представляет KAME: тандемная архитектура для реального времени speech-to-speech с знаниями LLM
KAME от Sakana AI решает классическую trade-off в conversational AI между скоростью и знаниями, запуская frontend S2S модель (на базе Moshi) и backend LLM асинхронно. Фронтенд генерирует немедленный ответ, тогда как бэкенд continuously предоставляет прогрессивно улучшающиеся «oracle» сигналы на основе частичного транскрипта, позволяя модели «говорить, думая». Результаты показывают улучшение MT-Bench score с 2.05 (Moshi) до 6.43 при near-zero latency по сравнению с 2.1 секундами у cascaded систем.
Официальная страница проекта KAME от Sakana AI
Tokenization drift: когда маленькие изменения форматирования ломают поведение модели
Статья объясняет токенизацион дрейф — явление, при котором минимальные изменения в промпте (пробелы, знаки пунктуации, переносы строк) приводят к radically разным токенизациям и непредсказуемому поведению модели. Демонстрируется на GPT-2 токенизаторе, где даже ведущий пробел создает совершенно разные токен ID. Предлагается решение через автоматизированную оптимизацию промптов (APO), которая выбирает форматы, максимально близкие к оригинальному SFT формату для стабильной производительности.






















