Новое исследование NVIDIA показывает ускорение генерации rollout в NeMo RL на 1.8× при 8B и прогнозируемый 2.5× при 235B благодаря спеkulative декодированию
Команда исследователей NVIDIA интегрировала спеkulative декодирование непосредственно в цикл обучения с подкреплением NeMo RL, достигнув потери ускорения генерации rollout в 1.8 раза для моделей масштаба 8B и прогнозируемого 2.5-кратного ускорения end-to-end для моделей 235B, при этом сохраняя точное выходное распределение модели. Метод реализован в NeMo RL v0.6.0 с бэкендом vLLM и поддерживается вместе с SGLang, оптимизатором Muon и обучением YaRN для длинного контекста.
Исследовательская статья на arXiv: Speculative Decoding in NeMo RL
Туториал по декодированию лингвистических признаков из MEG-сигналов с использованием NeuralSet и глубокого обучения
В туториале демонстрируется end-to-end система для декодирования лингвистических признаков непосредственно из магнитоэнцефалографических (MEG) сигналов. Используя библиотеку NeuralSet для обработки нейронных данных и сверточную нейронную сеть для обучения паттернам временной и пространственной структуры MEG, авторы показывают, как предсказывать длину слова из мозговой активности, подчеркивая модульный workflow, типичный для современных neuroAI исследований.
Официальный репозиторий NeuralSet от Facebook Research
Meta представляет Autodata: фреймворк, превращающий ИИ-модели в автономных ученых по данным для создания высококачественных обучающих наборов
Meta AI представила Autodata — фреймворк, в котором ИИ-агенты выполняют роль ученых по данным: создают обучающие примеры на основе исходных документов, анализируют их качество и итеративно улучшают процесс генерации данных. Подход показал значительное превосходство над традиционными методами синтетических данных, создав набор из 2,117 пар вопрос-ответ из научных статей по компьютерным наукам, что привело к улучшению моделей при обучении на таких данных.
Официальный блог Meta AI RAM о фреймворке Autodata
Практическое руководство по пост-обучению больших языковых моделей с использованием библиотеки TRL от supervised fine-tuning до DPO и GRPO
Туториал предоставляет пошаговое руководство по постобучению LLM с использованием экосистемы TRL (Transformer Reinforcement Learning). Охватываемые техники включают supervised fine-tuning (SFT), моделирование награды (RM), прямое предпочтение оптимизации (DPO) и групповую относительную политику оптимизации (GRPO). Руководство также показывает применение эффективных методов, таких как LoRA, для обучения на ограниченном оборудовании, например, на GPU T4 в Google Colab.
Официальный репозиторий библиотеки TRL для обучения с подкреплением
Qwen AI выпускает открытый набор Qwen-Scope для извлечения интерпретируемых признаков из внутренних активаций больших языковых моделей
Qwen AI анонсировала выпуск Qwen-Scope — открытого набора разреженных автоэнкодеров (SAE), предназначенного для извлечения интерпретируемых признаков из внутренних представлений больших языковых моделей. Инструмент позволяет исследователям и разработчикам анализировать, что именно кодирует модель на разных слоях, и использовать эти признаки для создания практических инструментов отладки, интерпретируемости и улучшения производительности моделей.





















