
Обзор последних новостей в области искусственного интеллекта: релизы моделей, новые архитектуры и платформы. ➡️➡️➡️
Zyphra представила модель ZAYA1-8B типа Mixture of Experts на AMD аппаратном обеспечении Компания Zyphra AI выпустила языковую модель ZAYA1-8B с архитектурой Mixture of Experts, имеющую 760 миллионов активных параметров и 8,4 миллиарда общего числа параметров. Модель обучена исключительно на аппаратном обеспечении AMD Instinct MI300 и демонстрирует конкурентоспособные результаты на бенчмарках по математике и коду по ➡️➡️➡️
Zyphra представляет Tensor и Sequence Parallelism (TSP): аппаратно-осознанная стратегия обучения и вывода Zyphra представила новую технику параллелизма TSP, которая объединяет тензорное и последовательное параллелизм на одной оси устройственного mesh, уменьшая как память весов, так и память активаций на одинаковый коэффициент 1/D. Тестирование на до 1024 GPU AMD MI300X показало 2.6x увеличение пропускной способности по сравнению ➡️➡️➡️