
Zyphra представила модель ZAYA1-8B типа Mixture of Experts на AMD аппаратном обеспечении Компания Zyphra AI выпустила языковую модель ZAYA1-8B с архитектурой Mixture of Experts, имеющую 760 миллионов активных параметров и 8,4 миллиарда общего числа параметров. Модель обучена исключительно на аппаратном обеспечении AMD Instinct MI300 и демонстрирует конкурентоспособные результаты на бенчмарках по математике и коду по ➡️➡️➡️
Zyphra представляет Tensor и Sequence Parallelism (TSP): аппаратно-осознанная стратегия обучения и вывода Zyphra представила новую технику параллелизма TSP, которая объединяет тензорное и последовательное параллелизм на одной оси устройственного mesh, уменьшая как память весов, так и память активаций на одинаковый коэффициент 1/D. Тестирование на до 1024 GPU AMD MI300X показало 2.6x увеличение пропускной способности по сравнению ➡️➡️➡️
Digest Mistral AI запускает удалённые агенты в Vibe и выпускает Mistral Medium 3.5 с результатом 77,6% на SWE-Bench Mistral AI анонсировала удалённых агентов для своей платформы Vibe, позволяющих выполнять кодовые задачи в облаке, а также представила новую флагманскую модель Mistral Medium 3.5 — плотную 128-миллиардную модель с 256k контекстным окном, multimodal возможностями и настраиваемым уровнем ➡️➡️➡️