Большие модели, такие как большие языковые модели (LLM) и большие мультимодальные модели (LMM), показали свою эффективность в различных задачах. Однако увеличение размера модели снижает скорость вывода, что ограничивает ее практическую применимость. Разреженные смеси экспертов (SMoE) предлагают решение, но сталкиваются с …