
Zyphra представляет Tensor и Sequence Parallelism (TSP): аппаратно-осознанная стратегия обучения и вывода Zyphra представила новую технику параллелизма TSP, которая объединяет тензорное и последовательное параллелизм на одной оси устройственного mesh, уменьшая как память весов, так и память активаций на одинаковый коэффициент 1/D. Тестирование на до 1024 GPU AMD MI300X показало 2.6x увеличение пропускной способности по сравнению ➡️➡️➡️