
Новое исследование NVIDIA показывает ускорение генерации rollout в NeMo RL на 1.8× при 8B и прогнозируемый 2.5× при 235B благодаря спеkulative декодированию Команда исследователей NVIDIA интегрировала спеkulative декодирование непосредственно в цикл обучения с подкреплением NeMo RL, достигнув потери ускорения генерации rollout в 1.8 раза для моделей масштаба 8B и прогнозируемого 2.5-кратного ускорения end-to-end для моделей ➡️➡️➡️